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欢迎 点 击 这 里 的 链接 进入 精彩 的 Linux 公 社 网 站 


Linux 公 社 (www.Linuxidc.com) 于 2006 年 9 月 2$ 日 注册 并 开通 网 站 ，Linux 现 在 已 经 成 为 一 种 广 受 关注 和 文 持 
的 一 种 操作 系统 ，IDC 是 互联 网 数据 中 心 ，LinuxIDC 就 是 关于 Linux 的 数据 中 心 。 


Linux 公 社 是 专业 的 Linux 系 统 | 门户 网 站 ， 实 时 发 布 最 新 Linux 资 讳 ， 包 括 Linux、Ubuntu、Fedora、RedHat、 红 


旗 Linux、Linux 教 程 、Linux 认 证 、SUSE Linux、Android、Oracle、Hadoop、CentOS、MySQL、Apache、 
Nginx、Tomcat、Python、Java、C 语 言 、OpenStack、 集 群 等 技术 。 


Linux 公 社 (LinuxIDC.com) 设置 了 有 一 定 影 啊 力 的 Linux 专 题 栏 目 。 
Linux 公 社 主 站 网 址 : WWWw.linuxidc.com 旗下 网 站 : Www.linuxidc.net 
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深入 学 习 MongoDB 
本 书 分 两 部 分 ， 分 别 来 自 O'Reilly 的 《MongoDB 扩 展 技 术 》 与 《MongoDB 开 发 技巧 50 例 》 两 书 。 
前 一 部 分 “MongoDB 扩 展 技 术 ” 指 导 大 家 创建 一 个 不 断 增长 以 满足 应 用 程序 需求 的 MongoDB 集 群 ， 内 容 简 明 


扼要 ， 指 导 用 户 设置 和 使 用 集群 存储 大 量 数据 并 高 效 访问 数据 。 此 外 ， 读 者 还 可 了 解 如 何 让 应 用 程序 兼容 分 
布 式 数据 库 系统 。 遵 照 其 中 建议 ， 你 很 快 就 可 通过 MongoDB 构 建 和 运行 一 个 高 效 的 、 可 预测 的 分 布 式 系统 。 


具体 的 主题 有 : 

sm ”通过 分 片 设置 MongoDB 集 群 
sa 在 集群 中 查询 和 更 新 数据 ， 

m 操作、 监控 和 备份 集群 


m ”从 程序 设计 角度 ， 考 虑 如 何 应 对 分 片 、 配 置 服务 器 或 者 mongos 进 程 停止 运行 的 情况 。 
对 于 用 户 而 言 ，MongoDB 上 和 手 很 容易 ， 但 是 构建 使 用 MongoDB 的 应 用 程序 时 ， 一 些 琅 手 的 辐 题 便 会 接 中 和 而 
来 。 怎 样 权衡 范式 化 与 反 范式 化 ?怎样 处 理 复制 组 失效 的 情况 并 进行 故障 恢复 ? 本 书 第 二 部 分 “MongoDB 开 
发 技巧 50 例 ”呈现 了 一 系列 的 MongoDB 提 示 和 技巧 ， 可 帮助 用 户 解 决 与 应 用 程序 设计 与 实现 、 数 据 安全 和 监 
控 有 关 的 各 种 回 题 。 

内 容 涵盖 10gen 公 司 工程 师 的 实际 指导 ， 并 通过 以 下 5 个 话题 展开 了 论述 。 

m 应 用 设计 技巧 : 模式 设计 阶段 应 注意 的 问题 

s ”实现 技巧 ， 基于 MongoDB 编 写 应 用 程序 

m ”数据 安全 技巧 ， 在 不 牺牲 太 多 性 能 的 情况 下 ， 利 用 复制 和 日 志保 证 数据 安全 

a ”管理 技巧 ， 配置 MongoDB 并 确保 其 平滑 运行 Ss 
Kristina Chodorow 10gen 公 司 的 软件 工程 师 ，MongoDB 项 目的 核心 成 员 ， 从 事 与 数 据 库 服 务 咽 、PHP 
驱动 、Perl 驱 动 等 相关 的 工作 。 她 第 在 世界 级 技术 大 会 上 作 报 告 ， 包 括 OSCON 、LinuxCon、FOSDEM 


和 Latinoware . 





让 


封面 设计 : Karen Montgomery 张 健 : 9 | / 加 

图 灵 社 区 ，www.ituring.com.cn © RE | | 站 

反馈 /投稿 /推荐 信箱 ，contact@turingbook.com er 

热线 : (010)51095186 转 604 oreil ly.com.cn ISBN 978-7-115-27211-9 

| i | 

和 和 计算 机 /数据 库 /MongoDB | eT NN ] 

人 人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn i | ] 

O'Reilly Media Inc .授权 人 民 邮 电 出 版 社 出 版 山 

115 4272119 





9 "787 





此 简体 中 文 版 仅 限于 中 国 大 陆 (不 包含 中 国 香港 、 澳 门 特别 行政 区 和 中 国 台湾 地 区 ) 销售 发 行 加 | 
This Authorized Edition for sale only in the territory of Pecples Republic of China (excluding ISBN 978-7-115-27211-9 
Hong Kong, Macao and Taiwan) 定价 . 32.00 元 


Linux 公 社 www.linuxidc.com 





”深入 学 习 MongoDB 


Scaling MongoDB 
50 Tips and Tricks for MongoDB Developers 


[ 美 ] Kristina Chodorow 车 
巨 成 ” 程 显 峰 主 


O'REILLY* 
Beijiing * Cambridge * Farnham * Kéln » Sebuastopol * Tokyo 
OReilly Media, Inc. 授 权 人 民 上 邮电 出 版 社 出 版 








人 民 邮 电 出 版 社 
北 京 


Linux 公 社 www.linuxidc.com 


图 书 在 版 编目 CTITPE) 数据 


深入 学 习 MongoDB / ( 美 ) 鹤 名 罗 夫 (Chodorow,.) 
者 ; 已 成 ， 程 显 峰 详 ，-- 北京 : 人 民 邮 电 出 版 社 ， 
20]2. 3 

(图 灵 程 序 设 计 从 书 )》 

ISBN 978-7-115-27211~9 


[ ， 忆 深 … I[， 也 十 … 多 巨 … 岛 程 … III， 人 关系 数 
据 库 系统 VY，Q@DTP311. 138 


中 国 碑 本 图 书馆 CIP 数 据 核 字 (2011) 第 267232 号 


内 容 提 要 


本 书 分 两 部 分 ， 分 别 对 应 O'Reilly 公司 出 版 的 Scaling MongoDB 和 50 Tips and Tricks for 
MongoDB Developers 两 本 书 的 内 容 。 第 一 部 分 全 面 讲 解 了 有 关 建 立 和 使 用 集群 的 内 容 ， 不 仅 从 
应 用 开发 人 员 的 角度 讲解 了 MongoDB 的 使 用 ， 而 且 从 运 维 方面 介绍 了 集群 的 管理 。 其 中 内 容 
包括 通过 分 片 设置 MongoDB 集群 , 分 片 的 工作 原理 ,查询 和 更 新 数据 ， 操作 、 监 挖 和 备份 集群 ， 
错误 处 理 。 第 二 部 分 依次 从 应 用 设计 、 实 现 、 优 化 、 数 据 安全 和 管理 方面 介绍 了 使 用 MongoDB 
构建 应 用 的 技巧 ， 内 容 包 括 范式 化 与 反 范 式 化 的 利 刺 权衡 ， 复 制 组 的 故障 恢复 等 。 

本 书 适 台所 有 MongoDB 用 户 阅 读 参 考 。 
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0'Reilly Media, Inc. 介 绍 


O Reilly Media 通过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研究 和 会 议 等 方式 传播 创新 知识 。 
日 1978 年 开始 ，O"Reilly 一 直 都 是 前 语 发 展 的 见证 者 和 推动 者 。 超 级 极 客 们 正在 开创 
着 未 来 ， 而 我 们 关注 真正 重要 的 技术 趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社 
会 对 新 科技 的 应 用 。 作 为 技术 社区 中 活跃 的 参与 者 ，O"Reilly 的 发 展 充满 了 对 创新 的 
倡导 、 创 造 和 发 扬 光 大 。 


DO" Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”， 创 建 第 一 个 商业 网 站 (GNN) ; 组 
织 了 影响 深 远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运动 以 此 命名 ; 创立 了 Make 杂志 ， 
从 而 成 为 DIY 革命 的 主要 先锋 ， 公司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 ， 
O'Reilly 的 会 议和 峰会 京 集 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 描绘 出 开创 
新 产业 的 革命 性 思想 。 作 为 技术 人 士 获取 信息 的 选择 ，O"Reilly 现在 还 将 先锋 专家 的 
知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 、 在 线 服务 或 者 面授 课程 ， 每 一 
项 O'Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 一 一 信息 是 激发 创 新 的 力量 . 


“O'Reilly Radar 博客 有 口 淹 碑 ，” 





一 Wired 


“O'Reilly 学 借 一 系列 【真希 望 当 初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 万 美元 的 业务 ” 


—Business 2.0 


O'Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 .” 


“一 本 O"Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 ” 


——lrish Times 


Tim 是 位 特 立 独行 的 商人 ， 地 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 ;“ 如 果 你 在 路 上 过 到 岔路 口 ， 走 小 路 { 岔路 ), ”回顾 过 
去 ，Tim 似乎 每 一 次 都 选择 了 小 路 ,而且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽管 大 路 
也 ,不 错 。 
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本 书 是 为 那些 对 分 片 感 兴趣 的 MongoDB 用 户 准 备 的 ， 它 全 面 讲 述 了 如 何 建立 和 使 
用 集群 等 内 容 。 


本 书 不 是 对 MongoDB 的 入 门 介绍 。 读 者 需要 理解 诸如 文档 、 集 合 、 数 据 库 这 些 概 
念 ， 刚 所 如 何 读 写 数据 ， 什 么 是 索引 ， 如 何以 及 为 什么 要 建立 副本 集 ，。 


如 果 你 并 不 熟悉 MongoDB ， 大 可 不 必 担 心 ， 因 为 它 很 容易 上 手 。 市 面 上 有 一 些 有 
天 MongoDB 的 书 ， 包 括 本 书 作 者 参与 编写 的 《MongoDB 权威 指南 》。 你 也 可 以 查 
阅 在 线 文 档 ，。 


格式 约定 

本 书 使 用 了 如 下 排版 约定 。 
- 楷体 

用 于 标记 新 名 词 。 

* 等 宽 字 体 


用 于 程序 代码 ， 在 段落 中 用 于 表示 程序 的 组 成 部 分 ， 如 变量 或 函数 名 、 数 据 库 、 数 
堪 业 型 、 环 境 变量 、 语句、 关键 字 。 


“等 宽 粗 体 
命令 或 是 其 他 应 该 由 用 户 输入 的 内 容 。 


和 | 
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。 等 宽 斜体 
应 该 由 用 户 提 供 的 或 根据 上 下 文 确定 的 值 。 


于 昌 





”这 个 图 标 表示 提示 、 建 议 或 一 般 性 的 注解 。 


这 个 图 标 表 示 一 个 警告 或 警示 。 





使 用 示例 代码 

本 书 用 于 帮助 你 完成 工作 。 通 常 ， 你 可 以 在 程序 或 文档 中 使 用 本 书 提供 的 代码 。 除 
在 重新 发 布 我 们 的 大 量 代码 ， 否 则 不 需要 联系 我 们 来 获得 许可 。 比 如 ， 在 程序 
中 使 用 本 书 代码 的 一 些 片段 是 无 需 我 们 许可 的 。 但 是 出 售 或 再 分 发 O'Reilly 的 图 书 
示例 光盘 显然 是 需要 授权 的 。 引 用 本 书 或 引用 示例 代码 来 回答 问题 是 不 需要 授权 的 ， 
但 将 本 书 的 大 量 示例 代码 纳入 产品 的 文档 是 需要 授权 的 。 


我 们 乐于 见 到 你 在 使 用 时 声明 引用 信息 ， 但 不 强制 要 求 。 引 用 信息 通常 包括 书 名 、 
作者 、 出 版 社 和 ISBN， 例 如 “Scaling MongoDB by Kristina Chodorow (O'Reilly). 
Copyright 2011 Kristina Chodorow, 978-1-449-30321-1 。 








如 果 你 认为 对 示例 代码 的 使 用 需 枫 授权 ， 请 通过 这 个 邮 逢 联系 我 们 : permissions@ 


Orellly.com 。 


Safari 在 线 图 书 
。 ”ee  ” 。。》 Safari 在 线 图 书 是 应 需 而 变 的 数字 图 书馆 。 它 能 够 让 你 非常 轻 
Safa TL. 松 地 搜索 7500 多 种 技术 性 和 创新 性 参考 书 以 及 视频 ， 以 便 快 
Books online 。 速 地 找到 需要 的 答案 。 


订阅 后 你 就 可 以 访问 在 线 图 书馆 内 的 所 有 页 面 和 视频 ， 在 手机 或 其 他 移动 设备 上 阅 
读 ， 在 新 书 上 市 之 前 抢先 阅读 ， 还 能 够 看 到 尚 在 创作 中 的 书稿 并 向 作者 反馈 意见 ，。 
复制 粘贴 代码 示例 、 放 入 收藏 夹 、 下 载 部 分 章节 、 标 记 关 键 点 、 做 笔记 甚至 打印 页 
面 等 有 用 的 功能 可 以 帮 你 节省 大 量 时 间 。 


这 本 书 也 在 其 中 。 欲 访问 本 书 的 类 文 版 电子 版 ， 或 者 由 O'Reilly 或 其 他 出 版 社 出 版 
的 相关 图 书 ， 请 到 http://my.safaribooksonline.com 免费 注册 。 
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我 们 的 联系 方式 
请 把 对 本 书 的 评论 和 问题 发 给 出 版 社 。 
美国 : 


(Relly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 
奥 莱 利 技术 咨询 (北京 ) 有 限 公司 


O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘误 
表 、 示 例 代 码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 


http://orellly.com/catalog/9781449303211 
中 文书 : 
nttp://www.orellly.com.cn/index.php?func=book&isbn=9787115272119 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电子 邮件 到 : 
bookquestions @oreilly.com 
关于 本 书 的 更 多 信息 、 会 议 、 资 源 中 心 和 网 络 ， 请 访问 以 下 网 站 


http://www.oreilly.com 


http://www.oreilly.com.cn 
我 们 在 Facebook 的 地 址 如 下 : 
http://facebook.com/oreilly 
请 关注 我 们 的 Twitter 动态 : 
http://twitter.com/oreillymedia 
我 们 的 YouTube 视频 地 址 如 下 : 


http://www.youtube.com/oreillymedia 
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在 《终结 者 》 系 列 影 片 中 ， 一 个 称 作 “天 网 ”的 人 工 智 能 生命 同人 类 发 动 战 竺 ， 年 
复 一 年 地 制造 机 器 人 和 杀 莪 人 类 。 这 是 大 部 分 运 维 人 员 的 梦想 ， 当 然 不 是 指 吸 灭 人 
类 ， 而 是 指 构建 一 个 可 以 长 时 间 运 行 而 无 需 人 工 干巴 的 分 布 式 系统 。 进 憾 的 是 ， 时 
至 今日 “天 网 依旧 是 个 幻想 ， 因 为 设计 好 并 维护 其 稳定 持续 运行 ， 对 一 个 分 布 式 
系统 来 说 仍然 是 一 件 非常 困难 的 事情 。 


单 台 数据 库 服务 器 的 状态 通常 很 简单 ， 非 启 即 停 。 但 是 如 果 再 添 一 台 服 务 器 并 把 数 
据 分 开 来 ， 则 这 两 台 服 务 器 之 间 会 产生 某 种 依赖 。 假 设 其 中 一 台 停 机 ， 对 另 一 台 会 
造成 什么 影响 ? 你 的 应 用 程序 能 应 付 其 中 一 台 (或 两 台 一 起 ) 停机 的 情况 吗 ? 如 果 
两 台 都 在 运行 但 无 法 通信 呢 ? 又 或 是 可 以 通信 ， 但 是 速度 非常 非常 慢 呢 ? 


随 着 更 多 顾 反 被 添加 到 集群 里 ， 这 类 问题 会 变 得 越 来 越 多 和 复杂 。 如 果 集 群 中 的 一 
整 部 分 无 法 与 其 他 部 分 通信 会 发 生 什么 ”如果 一 部 分 机 器 崩溃 了 又 会 如 何 ? 如 果 整 
个 数据 中 心 和 都 出 问题 了 呢 ? 突然 之 间 ， 即 使 是 创建 一 个 备份 也 将 变 得 异常 困难 。 怎 
杆 为 分 布 在 集群 中 几 十 台 机 器 上 的 TB 级 数据 建立 一 致 性 快照 ， 但 又 不 会 冻结 正在 
使 用 这 些 数据 的 应 用 程序 ? 


如 林 一 台 服 务 器 可 以 满足 需求 ， 那 就 能 避免 很 多 问题 。 但 是 如 果 想 要 存储 大 量 数 据 
或 者 想 以 高 于 单 服务 器 处 理 能 力 的 频率 来 访问 这 些 数据 ， 则 建立 一 个 集群 是 不 可 避 
免 的 。MongoDB 的 优势 之 一 正 是 试图 帮助 你 解决 上 面 列 出 的 许多 问题 。 不 过 这 并 
不 像 设置 单个 mongod 实例 (这 又 是 什么 ? ) 那么 简单 。 本 书 将 向 你 展示 如 何 一 步 
步 建立 起 一 个 健壮 的 集群 ， 以 及 在 这 个 过 程 中 将 遇 到 的 各 种 挑战 。 


什么 是 分 片 

分 片 (sharding) 是 MongoDB 用 来 将 大 型 集合 分 割 到 不 同 服务 器 (或 者 说 一 个 集 
群 ) 上 所 采用 的 方法 。 尽 管 分 片 起 源 于 关系 型 数据 库 分 区 ， 但 它 ( 像 MongoDB 的 
大 部 分 方面 一 样 ) 完全 是 另 一 回 事 。 

和 你 可 能 使 用 过 的 任何 分 区 方案 相 比 ，MongoDB 的 最 大 区 别 在 王 它 几 平 能 自动 完 
成 所 有 事情 。 只 要 告诉 MongoDB 要 分 配 数据 ， 它 就 能 自动 维护 数据 在 不 同 服务 器 
之 则 的 均衡 。 当 然 ， 你 得 告诉 MongoDB 把 服务 器 添加 到 集群 中 ， 不 过 只 要 这 么 做 
了 ，MongoDB 同样 会 确保 新 加 入 的 服务 器 分 得 均等 的 数据 ， 


分 斤 主要 是 为 了 实现 3 个 简单 的 目标 。 


让 和 集群 “不 可 见 ” 
应 用 程序 只 要 知道 跟 它 打交道 的 是 一 个 普通 的 mongod 实例 就 够 了 . 
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为 了 实现 这 一 目标 ，MongoDB 目 带 了 一 个 时 做 mongos 时 专 有 路 由 进程 。momngos 
坐镇 集群 大 前 方 ， 对 连 上 它 的 任何 应 用 而 言 束 像 是 一 个 普通 的 mongod 服务 酉 。 
mongos 会 把 请 求 正 确 无 误 地 转发 到 集群 中 的 一 个 或 一 组 服务 器 上 ， 接 着 再 把 获得 的 
响应 拼装 起 来 发 回 给 客户 端 。 这 样 一 来 ， 客 户 端 无 需 知道 与 其 通信 的 是 一 台 服 务 器 
还 是 一 个 集群 。 


不 过 由 二 集群 本 身 的 特性 使 然 ， 也 存在 一 些 违背 该 抽象 的 特殊 情况 ， 这 些 特 殊 情况 
会 在 第 4 章 中 提 到 ，。 


保证 集群 总 是 可 读 写 

任何 集群 都 无 法 保证 永远 可 用 (比如 出 现 大 范围 停电 之 类 的 情况 )， 但 是 在 合理 的 条 
件 下 ， 永 远 郡 不 应 该 出 现 用 记 无 法 读 写 数据 的 情况 。 在 功能 发 生 明 显 降 级 前 ， 集 群 
应 当 允 许 尽 可 能 多 的 市 所 失效 。 


MongoDB 通过 多 种 途径 来 确保 最 长 的 正常 运行 时 间 。 集 群 的 每 一 部 分 可 以 并 且 应 
当 在 其 他 服务 器 上 (最 理 想 的 情况 是 在 其 他 数据 中 心 ) 有 宛 余 的 进程 运行 ， 以 便当 
一 个 进程 /机 器 /数据 中 心 坏 掉 了 ， 其 他 副本 可 以 立即 (自动 地 ) 接替 坏 掉 的 部 分 
继续 工作 


把 数据 从 一 台 服 务 器 迁移 到 另 一 台 的 过 程 中 也 存在 着 一 个 非常 有 趣 的 难题 ， 在 传 
输 过 程 中 如 何 保证 对 数据 访问 的 持续 性 和 一 致 性 ”我 们 已 经 找 出 了 一 些 非常 好 的 
解决 方案 ， 不 过 有 些 超出 本 书 的 讲述 范围 。 总 之 ，MongoDB 采用 了 -一 些 非 常 漂亮 
的 技巧 。 


使 集群 易于 扩展 
当 系统 需要 更 多 的 空间 或 资源 时 ， 应 当 可 以 添加 。MongoDB 支持 按 需 扩充 系统 容 
量 。 有 关 增 加 (和 移 除 ) 容量 的 更 多 内 容 参 见 第 3 章 。 


要 实现 这 些 目标 ， 一 个 集群 应 该 易于 使 用 (就 像 使 用 单个 节点 一 样 ) 和 易于 管理 
(否则 添加 新 的 分 片 就 不 那么 容易 了 )。MongoDB 能 够 轻而易举 地 让 应 用 程序 自然 
节 壮 地 成 长 。 
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为 了 建立 ， 管理 或 调试 集群 ， 需 要 了 解 分 片 的 基本 工作 模式 。 本 章 包 含 这 部 分 基本 
内 容 以 便 你 理解 所 发 生 的 事情 。 


2.1 分 割 数据 

分 片 (shard) 是 集群 中 负责 数据 某 一 子 集 的 一 人 台 或 多 台 服 务 器 。 举 个 例子 ， 如 果 有 一 
个 集群 存储 了 1 000 000 份 代表 网 站 用 户 的 文档 ， 则 一 个 分 片 可 能 包含 其 中 200 000 位 
用 户 的 信息 。 z 

一 个 分 片 可 由 多 台 服 务 器 组 成 。 如 果 分 片 包 含 不 止 一 溃 服 务 器 ， 则 每 台 服 务 器 郡 有 
一 份 完全 相同 的 数据 子 集 的 副本 ( 见 图 2-1)。 在 生产 环境 中 ， 一 个 分 片 通 常 是 一 个 
副本 集 (replica set)。 





份 完整 的 数据 副本 

为 了 在 分 片 间 均 句 地 分 配 数据 ，MongoDB 会 在 不 同 分 片 间 移动 数据 子 集 。 它 会 根 
据 片 键 (key) 来 决定 移动 哪些 数据 。 例 如 我 们 可 能 选择 按 用 户 名 (username) 字段 
来 划分 用 户 集 合 。MongoDB 使 用 基于 区 加 的 方法 进行 划分 ， 即 按照 给 定 区 间 将 数 
据 分 割 成 不 同 块 ， 例 如 ["a", "f")。 本 章 会 使 用 标准 的 区 间 符 号 来 描述 区 间 。“[” 和 和 
“] ”表示 闭 区 间 ， 而 “(” 和 “)” 表 示 开 区 间 。 因 此 ， 有 4 种 可 能 的 区 间 

x 在 (a, 5) 中 ， 当 且 仅 当 存 在 x 使 得 a < x < 5b。， 

x 在 (a, 5] 中 ， 当 且 仅 当 存 在 x 使 得 a <x 志 上 b，。 

xX 在 [a,8) 中 ， 当 和 且 仪 当 在 在 x 使 得 a 万 x< bp。 

x 在 [a, 6] 中 ， 当 生 仪 当 存 在 x 使 得 a 去 x 专 上 4b。 

MongoDB 中 分 片 多 用 [a, 5) 来 表示 区 间 范 围 ， 所 以 这 会 是 最 常见 的 形式 。 读 区 间 
可 以 表述 为 “从 @ 开始 上 且 包 含 &， 到 卢 为 止 但 不 包含 六 ”。 

华 个 例子 ， 比 如 说 我 们 有 一 个 用 户 名 区 间 [an fr， 那么 "a"、"charlie"， 以 
及 "ez-bake" 都 可 能 属于 这 一 区 间 对 应 的 集合 ， 因 为 按 字符 串 比 较 有 "av 所 "a"< 


一 ea 
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理解 分 片 | 7 


Linux 公 社 www.linuxidc.com 


"charlie" <"ez-bake"n<"f", 


该 区 间 的 范围 到 "f" 为 止 但 不 包含 vf"， 因 此 "ez-bake" 可 能 属于 这 一 集合 ， 而 
fw 不 属于 。 


2.1.1 分配 数 据 
MongoDB 划分 数据 的 方法 有 些 不 直观 。 为 了 理解 这 么 做 的 理由 ， 我 们 先 使 用 初级 
方法 ， 过 到 问题 时 再 寻找 更 好 的 方法 。 


1. 一 分 片 一 区 间 

分 配 数据 到 分 片 最 简单 的 方法 就 是 让 每 个 分 片 负 责 一 个 区 则 的 数据 。 所 以 ， 如 时 我 
们 有 4 个 分 片 ， 则 很 可 能 会 得 到 如 图 2-2 所 示 的 设置 。 在 这 个 例子 里 ， 我 们 假设 所 
有 用 户 名 都 以 "am 到 "z" 之 间 的 字母 开头 ， 其 范围 可 以 表示 为 区 间 ["a","{")， 
{ 古 ASCII 人 码 表 中 字母 z 后面 的 字符 。 


[a 和 Ef" E "n') 
2 分 月 之 


["n” , "t") Bt “人 


分 片 3 分 片 4 














图 2-2; 4 个 分 片 ， 其 区 间 分 别 是 [maninfni、[nEn nn 、[nn wmtuw) 和 | [En yn fn) 





这 种 分 片 体系 非 靖 简明 易 懂 ,但 是 在 一 个 大 型 或 繁忙 的 系统 中 却 会 带 来 许多 不 便 。 
推 想 如 此 分 片 导 致 的 后 果 ， 就 很 容易 明白 其 中 的 道理 。 


假设 许多 用 户 用 站 字母 在 范围 [wa","f") 中 的 名 字 来 注册 。 这 会 导致 分 片 1 较 大 ， 
因此 我 们 需要 拿 出 它 的 一 部 分 文档 并 将 甚 挪 到 分 片 2 上去。 我 们 可 以 调整 区 间 使 分 
片 1 (比方 说 ) 变 成 ["a"，"c") ， 使 分 片 2 变 成 [rc"，"n") ( 见 图 2-3)。 


目前 好 像 没 什么 问题 ， 但 如 果 分 片 2 因此 过 载 该 怎么 办 呢 ? 假设 分 片 1 和 分 片 2 各 
有 500 GB 数据 ， 而 分 片 3 和 分 片 4 各 自 只 有 300 GB。 那 么 按照 这 个 分 片 方 案 ， 则 
最 终 要 进行 一 连 串 复制 : 我 们 不 得 不 把 100 GB 数据 从 分 片 1 挪 到 分 片 2， 接 着 把 
200 GB 数据 从 分 片 2 挪 到 分 片 3， 最 后 再 把 100 GB 数据 从 分 片 3 挪 到 分 片 4， 算 
下 来 总 共 要 挪动 400 GB 数据 ( 见 图 2-4)。 考 虑 到 所 有 数据 移动 都 必须 在 集群 中 级 
联 下 去 ， 可 知 额外 移动 的 数据 量 很 大 。 
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[c 山 "f") | 


['a","f") i 
本 [ f nn ) | ['"'n" : 二 Et" : 他) 
| 分 片 1 分 片 2 分 片 3 分 有 4 


["a” ne") [nc 中 no] ["n 时 2 [tr 中 
他 j 『 7 让 请 2 让 睛 了 5 | | | 





图 2-3; 3: 从 分 片 迁移 部 分 数据 到 分 上 名 分 片 1 的 区 间 缩 小 而 分 片 2 的 区 间 扩 大 


500 GB 200 GB 300 GB 300 GB | 





400 GB 600 GB 300 GB 300 GB 


200 GB 








] 400 6B 400 GB 400 GB 400 GB 


加 


a 
lk 一 分 片 一 -区 间 会 导致 级 联 效应 ; 必须 移动 数据 到 “ “下 一 台 ” 有 服务 器 上 , 即使 不 能 改 
于 平衡 性 
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如 果 添 加 一 个 新 分 片 又 会 怎样 呢 ? 假设 这 个 集群 继续 工作 下 去 ， 基 终 每 个 分 片上 都 
有 了 500 GB 数据 ， 然 后 我 们 添加 一 个 新 分 片 进来 。 现 在 我 们 不 得 不 把 400 GB 数据 
从 分 片 4 挪 到 分 片 5， 将 300 GB 从 分 片 3 挪 到 分 片 4， 将 200 GB 从 分 片 2 挪 到 分 
片 3， 将 100 GB 从 分 片 1 挪 到 分 片 2 ( 见 图 2-5)。 整 整 移动 了 1 TB 数据 1 








图 2-5: 添加 一 台新 服务 器 并 使 集群 负载 均衡 。 我 们 可 以 通过 在 集群 的 “中 间 ”( 分 片 2 和 分 
片 3 之 间 ) 添加 服务 况 来 降低 所 融 迁 移 的 数据 量 ， 但 即使 这 样 仍然 需要 迁移 600 GB 数据 


随 着 分 片 数 量 和 数据 量 的 增长 ， 这 种 级 联 效 应 只 会 持续 恶化 下 去 。 因 此 MongoDB 
并 不 采用 这 种 方法 来 分 配 数据 ， 而 是 使 每 个 分 片 包 含 多 个 区 间 。 


2. 一 分 片 多 区 间 
让 我 们 回头 重新 考虑 如 图 2-4 所 示 的 情况 ， 共 中 分 片 1 和 分 片 2 各 有 500 GB 数据 ， 
而 分 片 3 和 分 片 4 各 有 300 GB 数据 。 这 次 我 们 允许 每 个 分 片 包含 多 块 区 间 。 


我 们 可 以 把 分 片 1 上 的 数据 划分 为 两 个 区 间 ， 使 其 中 一 个 包含 400 GB 数据 (比如 
说 [ra',nd)i， 力 一 个 包 舍 100 GB 数据 (["a","f"))。 接 着 我 们 对 分 片 2 也 
做 同样 的 处 理 ,得 到 区 间 [rfE"w ,wj") 和 ["j","n")。 现 在 可 以 把 100 GB 数据 
("a","f")) 从 分 片 1 迁移 到 分 片 4 上 ， 把 区 间 ["j","n") 内 的 所 有 文档 从 分 片 
2 迁移 到 分 片 3 上 ( 见 图 2-6)。 一 个 区 则 的 数据 称 为 一 个 数据 块 {也 叫 块 ，chunk)。 
当 我 们 把 一 个 块 的 区 间 一 分 为 二 时 ， 一 个 块 也 变 成 了 两 个 块 。 


这 样 每 个 分 片上 就 有 了 400 GB 数据 ， 而 仅 有 200 GB 数据 需要 挪动 。 


如 果 要 添加 新 分 片 ，MongoDB 可 以 从 每 个 分 片 顶 端 取 100 GB 数据 并 把 这 些 块 挪 
到 新 分 片上 ， 使 得 新 分 片 获 取 400 GB 数据 需要 移动 的 数据 量 最 小 化 : 只 有 400 GB 
( 见 图 2-7) 。 
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-6， 让 分 请 支持 多 重 非 连续 区 间 ， 我 们 便 可 以 挑选 数据 并 将 其 移动 到 任何 地 方 


400 GB 
分 片 5 


400 GB 
分 片 4 




















2-7: 添加 新 分 片 时 ， 每 个 分 片 都 可 以 直接 给 它 提供 数据 


这 就 是 MongoDB 的 数据 分 配 之 道 。 当 一 个 块 变 得 越 来 越 大 时 ， MongoDB 会 自动 将 
其 分 割 成 两 个 较 小 的 块 。 如 果 分 片 间 比例 失调 ， 则 MongoDB 会 通过 迁移 块 来 确保 
均衡 。 


2.1.2 如何 创 建 块 

当 你 决定 分 配 数据 时 ， 必 须 为 块 区 间 选 择 一 个 刍 (前 面 我 们 一 直 在 用 username)。 
这 个 键 叫做 片 键 (shard key ) ， 片 键 可 以 是 任意 字段 或 字段 的 组 合 。 (第 3 章 会 介绍 
如 何 选 择 片 键 以 及 对 集合 进行 分 片 的 命令 .) 

- 
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欢迎 点 击 这 里 的 链接 进入 精彩 的 Linux 公 社 网 站 


Linux 公 社 (www.Linuxidc.com) 于 2006 年 9 月 2$ 日 注册 并 开通 网 站 ，Linux 现 在 已 经 成 为 一 种 广 受 关注 和 文 持 
的 一 种 操作 系统 ，IDC 是 互联 网 数据 中 心 ，LinuxIDC 就 是 关于 Linux 的 数据 中 心 。 


Linux 公 社 是 专业 的 Linux 系 统 | 门户 网 站 ， 实 时 发 布 最 新 Linux 资 讳 ， 包 括 Linux、Ubuntu、Fedora、RedHat、 红 


旗 Linux、Linux 教 程 、Linux 认 证 、SUSE Linux、Android、Oracle、Hadoop、CentOS、MySQL、Apache、 
Nginx、Tomcat、Python、Java、C 语 言 、OpenStack、 集 群 等 技术 。 


Linux 公 社 (LinuxIDC.com) 设置 了 有 一 定 影 啊 力 的 Linux 专 题 栏 目 。 
Linux 公 社 主 站 网 址 : WWWw.linuxidc.com 旗下 网 站 : Www.linuxidc.net 


包括 : Ubuntu 专题 Fedora 专题 Android 专题 Oracle 专题 Hadoop 专题 RedHat 专题 SUSE 专题 
红旗 Linux 专题 CentOS 专题 


有 TI ULX 公 社 


www.Linuxidc.com 











Linux 公社 微 信 公众 写 : linuxidc com 





1. 示例 
假如 我 们 的 集合 中 包含 如 下 文档 (忽略 ia 字段 ) : 


{"username" : "paul", "age" : 23)} 
{"username" ; "simon", "age" : 17| 
{"username" : "wiadly"，"age" : 16| 
{"username" : "gscuds", "age" ; 95| 
{"username" : "grill", "age" ; 18] 
{"username" : "flavored", "age" ; S55} 
{ username" : "bertango"", "age" : 731 
{"username'" : "wooster", "age" : 33| 


如 果 我 们 选择 age 字段 作为 片 键 并 得 到 一 个 块 区 间 [15, 26)， 则 此 块 会 包含 以 下 文档 : 


{"username" ; "paul", "vage"™ : 23| 
{"username" : "simon", "age" : 17| 
fusernamen : "widdly'", "age* : 16} 
{"username" : "grill", "age" : 18} 


如 你 所 见 ， 这 个 块 中 的 所 有 文档 其 age 字段 值 都 在 这 个 块 的 区 间 内 。 


2. 对 集合 分 片 

对 一 个 集合 分 片 时 ， 无 论 集合 里 有 什么 数据 MongoDB 都 只 会 创建 一 个 块 。 这 个 块 
的 区 间 是 (- = , ee)， 其 中 - ce 是 MongoDB 可 以 表示 的 最 小 值 【也 叫 sminKey)， 
c 呈 是 最 大 值 (也 叫 smaxKey)。 


如 果 被 分 片 的 集合 中 包含 大 量 数据 ，MongoDB 会 立刻 把 这 个 初始 块 分 割 为 
心 4 。 多 个 较 小 的 块 。 


事实 上 ， 由 于 上 面 例子 中 的 集合 太 小 并 不 能 触发 分 割 ， 所 以 在 插入 更 多 数据 之 前 ， 
都 只 有 一 个 块 to ,w))。 尽 管 如 此 ， 为 了 达到 演示 的 目的 ， 我 们 假设 这 个 数据 量 
已 经 足够 大 了 。 


MongoDB 会 把 初始 块 (- ce , ce) 分 割 为 两 个 新 块 ， 分 制 位 置 一 般 选 在 已 有 数据 区 
间 的 中 点 附近 。 因 此 ， 如 果 大 约 一 半 文 档 的 age 字段 值 小 于 1$， 且 另 一 半 大 于 15， 
MongoDB 就 很 可 能 会 选择 15。 这 样 就 得 到 两 个 块 ; (- ce ,15] 和 [115, < ) ( 见 图 
2-8)。 如 果 我 们 往 块 [15, ce ) 里 继续 插入 数据 ， 它 会 再 一 次 被 分 割 【比如 说 分 割 成 
[15,26) 和 [26, ce ))。 这 样 集合 中 就 有 了 3 个 块 ; (- ee ,15)、[15,26) 和 [26, co )。 
在 插入 更 多 数据 的 同时 ，MongoDB 会 持续 地 将 已 有 块 分 割 成 更 多 的 新 块 。 


块 的 区 辐 可 以 只 包含 一 个 值 (例如 仅 包 含 用 户 名 为 paul 的 用 户 ),， 但 是 各 块 的 区 间 
必须 互 不 相同 (不 能 有 两 个 块 的 区 间 同 为 ["a","f"))。 男 外 ， 也 不 能 有 区 间 相 互 重 


12 | 第 2 章 


Linux 公 社 www.linuxidc.com 


全 的 块 ， 而 且 每 个 块 的 区 间 必 须 紧邻 下 一 个 块 的 区 间 。 因 此 如 果 要 分 制 一 个 区 间 为 
[4,8) 的 块 ， 结 果 可 以 是 [4,6) 和 [6,8) (因为 二 者 合 起 来 能 覆盖 原 块 的 区 间 )， 但 不 
可 以 是 [4,5) 和 [6,8) {因为 这 样 集合 将 丢失 区 间 [5,6) 中 的 所 有 数据 )， 也 不 能 是 
[4,6) 和 [5,8) (因为 会 造成 块 的 部 分 重 释 )。 每 个 文档 必须 属于 且 仅 属于 一 个 块 。 
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2-8; 一 个 块 分 割 成 两 个 块 


由 于 MongoDB 不 强制 要 求 任何 形式 的 结构 定义 ， 你 可 能 会 纳 闽 ， 那 没有 值 可 以 作 
为 片 键 的 文档 会 被 放 到 哪里 去 呢 ? 实际 上 MongoDB 并 不 允许 插入 无 片 键 的 文档 
(尽管 使 用 null 作为 片 键 值 是 可 以 的 ) ， 也 不 允许 修改 文档 的 片 键 值 (例如 用 sset 
命令 )。 给 文档 一 个 新 片 键 的 唯一 方法 是 先 删 除 文 档 ， 然 后 在 客户 端 修 改 片 键 的 值 ， 
再 重新 插入 文档 ，。 


如 来 在 一 些 文档 中 使 用 字符 串 ， 而 在 另 一 些 文档 中 使 用 数字 呢 ? 这 也 是 可 以 的 ， 因 
为 企 MongoDB 中 类 型 之 间 有 严格 的 次 序 。 如 果 在 age 字段 插入 一 个 字符 串 {或 数 
组 、 布 尔 值 、null 等 )，MongoDB 会 按照 类 型 对 其 排序 。 类 型 的 先后 次 序 如 焉 ， 


null < 数字 < 字符 串 < 对 象 < 数组 < 二 进 制 数据 < objectIda< 布尔 值 < 日 期 < 正则 
在 同一 种 类 型 内 ， 排 序 与 你 所 期 望 的 很 可 能 相同 : 2 < 4 或 ac<nzw 
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在 前 面 的 第 一 个 例子 里 ， 块 都 是 几 百 GB 大 小 ， 但 在 真实 系统 中 ， 块 大 小 默认 仅 有 
200 MB 。 这 是 因为 挪动 数据 的 代价 非常 大 ， 要 花费 很 长 时 间 ， 占 用 系统 资产， 而 且 
会 明显 增加 网 络 流 量 。 你 可 以 自己 试 试 看 ， 先 插入 200 MB 数据 到 某 一 集合 中 ， 然 
后 试 着 取 回 所 有 200 MB 数据 。 接 着 想象 一 下 在 建 有 多 个 索引 (比如 生产 系统 很 可 
能 有 多 个 索引 ) 的 系统 上 做 同样 的 事情 ， 同 时 该 系统 上 还 有 其 他 数据 流量 存在 的 情 
况 。 你 肯定 不 会 愿意 看 着 应 用 程序 逐 尖 降低 性 能 直至 停止 ， 而 MongoDB 还 在 后 台 
拖 拖 拉 拉 地 挪动 数据 。 实 际 上 ， 如 果 一 个 块 过 大 ，MongoDB 根本 就 不 会 移动 它 。 
反 过 来 你 也 不 会 希望 块 过 小 ， 因 为 每 个 块 都 需要 有 一 点 点 管理 开销 (以 便 你 不 必 为 
限 中 不 计 其 数 的 数据 块 而 烦恼 )。 综 合 考 虚 之 下 ， 我 们 发 现 200 MB 恰好 是 兼顾 可 移 
动 性 和 最 小 开销 的 最 佳 选 择 。 





二 
ba 块 是 一 个 逻辑 概念 ， 而 非 物 理 实 现 。 一 个 块 中 的 文档 在 物理 上 并 不 连续 存 
we 储 于 磁盘 上 或 以 任何 形式 聚集 在 一 起 。 它 们 可 能 分 散在 整个 集合 的 任何 角 
… 蕃 里 。 一 个 文档 属于 一 个 块 当 且 仅 当 其 片 键 值 在 对 应 的 块 区 间 内 。 
fy = 
2.2 平衡 


如 条 存 在 多 个 可 用 的 分 片 ， 只 要 块 的 数量 足够 多 ，MongoDB 就 会 把 数据 迁移 到 其 
他 分 片上 。 这 个 迁移 过 程 叫 做 平衡 (balancing)， 由 叫做 平衡 器 【balancer) 的 进程 
人 负责 执行 。 


平衡 冀 会 把 数据 块 从 一 个 分 片 挪 到 另 一 个 分 片上 ， 其 优点 在 于 自动 化 ， 即 你 无 需 担 
心 如 何 保持 数据 在 分 片 间 的 均匀 分 布 ， 这 项 工作 已 经 由 平衡 器 替 你 搞定 了 。 不 过 这 
也 是 它 的 缺点 ， 因 为 自动 意味 着 如 果 你 不 喜欢 它 做 负载 均衡 的 方式 ， 那 只 能 算 你 不 
走运 。 如 果 不 想 让 某 个 块 存在 于 分 片 3 上 ， 你 可 以 把 它 手动 移动 到 分 片 2 上 ， 但 是 
平衡 絮 很 可 能 把 它 再 挪 回 分 片 3。 你 只 能 选择 要 么 对 集合 重新 分 片 (re-shard)， 要 
么 关闭 平衡 化 。 

在 写 这 本 书 时 ， 平 衡器 的 算法 还 不 是 很 智能 。 它 每 天 基于 分 片 整体 大 小 来 移动 块 ， 
在 (不久 的 ) 将 来 它 会 变 得 更 加 先进 。 

平衡 器 的 目标 不 仅 是 要 保持 数据 均匀 分 布 ， 还 要 最 小 化 被 移动 的 数据 量 。 因 此 触发 
平衡 器 需要 很 多 条 件 。 要 触发 一 轮 平衡 ， 一 个 分 片 必 须 比 块 最 少 的 分 片 多 出 至 少 9 
小 块 。 到 那 时 ， 块 就 会 被 迁移 出 拥挤 的 分 片 ， 直 到 与 其 他 分 片 平 衡 为 止 。 

平衡 戎 并 不 非常 激进 的 原因 在 于 MongoDB 希望 能 避免 将 相同 数据 来 回 移动 ， 如 果 
-平衡 普 要 平衡 掉 每 一 点 微小 的 差别 ， 那 很 可 能 会 不 停 地 浪费 资源 ， 分 片 1 比分 片 2 
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多 两 小 块 时 ， 它 就 发 送 一 个 块 给 分 片 2。 接 着 一 些 写 操作 沙 到 分 片 2 上 ， 使 得 分 片 2 
又 比分 片 1 多 出 两 个 块 ， 结 果 同 一 块 数据 又 被 折腾 回去 ( 见 图 2-9)。 通 过 等 待 更 严 
重 的 不 平衡 发 生 ，MongoDB 能 够 最 小 化 无 意义 的 数据 传输 。 要 知道 差 9 个 块 其 实 
也 不 是 那么 不 平衡 ， 因 为 这 还 不 到 2 GB 数据 呢 。 
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图 2-9， 如 果 每 一 点 轻微 的 不 平衡 者 被 修正 ， 则 最 终 必然 导致 大 量 不 必要 的 数据 移动 














3. 每 日 平衡 背后 的 病理 心理 学 
大 部 分 用 户 希 望 通 过 看 到 数据 移动 来 向 自己 证 明 分 片 可 以 工作 ， 这 产生 本 一 个 问题 : 
触发 一 轮 平 衡 所 需 的 数据 量 远 比 大 多 数 人 想象 的 大 。 


比方 说 我 正在 尝试 分 片 ， 于 是 写 了 一 个 命令 行 脚 本 来 插入 50 万 份 文 档 到 分 片 集 


合 中 : 


一 一 


理解 分 片 | 15 


Linux 公 社 www.linuxidc.com 


> for (i=0; i<500000; i++) 1 
db.foo.insert {({" id" : YT" 1, "date" :; new Datel), 
"nfoo" : "par"}):; 
| 
等 插入 完成 ， 我 应 该 能 看 见 一 些 数 据 飞 来 飞 去 了 了 ， 对 不 对 ? 错 。 如 果 我 看 一 眼 数据 
库 状 态 ， 就 会 发 现 还 差 得 远 呢 《为 了 清楚 省 略 了 一 些 字 段 ) : 
> db . 号 七 忌 七 号 【 


人 


Fawn : 1 
"ubuntu:27017" : 1 
jw 分 斤 状 态 */ 
上 ， 


"ubuntu:27018" ; 1 
/* 分 片 状态 */ 
| 


ER : S00O0008, 
"avgObjsize" : 79.9399376009938383， 
ndatasise" ;: 40000328, 
"storagqeSsSize" : 69082624, 
nok" : 1 
} 
如 果 你 看 一 眼 datasize， 可 以 发 现 有 40 000 328 字 节 的 数据 ， 大 致 狂 于 40 MB。 
这 还 不 够 一 个 块 。 巷 至 还 不 够 一 个 块 的 1/4 ! 真 要 想 看 到 数据 移动 的 话 ， 需 要 插入 
2 GB 数据 ， 也 就 是 2500 万 个 这 样 的 文档 ， 或 者 说 是 现在 已 插入 数据 的 50 倍 。 


开始 使 用 分 片 时 ， 人 们 希望 看 到 数据 到 处 移动 ， 这 是 人 的 本 性 使 然 。 尽 管 如 此 ， 在 
生产 系统 中 你 不 会 希望 发 生 太 多 迁移 ， 因 为 这 种 操作 代价 极其 高 昂 。 因 此 ， 一 方面 
我 们 希望 看 到 迁移 实际 发 生 ， 而 另 一 方面 ， 事 实 又 是 如 果 它 不 是 看 上 去 慢 得 让 人 烦 
躁 ， 就 不 可 能 工作 得 很 好 。 

对 这 个 矛盾 ，MongoDB 需要 实现 两 个 “技巧 ”"， 让 分 片 更 加 善 解 人 意 ， 同 时 又 不 对 
生产 系统 造成 破坏 性 影响 。 

技巧 1: 自 定义 块 大 小 


第 一 次 局 动 mongos 时 ， 可 以 声明 - -chunksize N 参 数 ， 其 中 就 是 你 想 要 的 块 
大 小 ， 单 位 是 MB。 如 果 只 是 想 试 试 分 片 ， 可 以 设置 - -chunksize 1， 这 样 只 要 插 
入 几 MB 的 数据 就 能 看 到 迁移 发 生 。 


技巧 2: 递增 块 大 小 
即使 十 部 署 一 个 真正 的 应 用 程序 ， 要 达到 2 GB 看 起 来 也 遥遥 无 期 。 所 以 对 于 前 十 几 


Oo——— i 
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个 块 ，MongoDB 会 特意 自动 降低 块 大 小 ， 从 200 MB 降 到 64 MB ， 而 这 贱 是 为 了 更 
好 地 照顾 一 下 用 户 的 感受 。 一 旦 数据 块 多 起 来 ， 它 会 自动 把 块 大 小 递增 回 200 MB 。 


改变 块 大 小 

块 大 小 可 以 通过 在 启动 时 指定 - -chunksize NN 参数 或 修改 config.settings 集合 并 整 
体 性 重启 来 改变 。 尽 管 如 此 ， 除 非 是 为 了 好 玩 试 试 1 MB 的 块 大 小 ， 请 勿 随意 改动 
块 大 小 。 


我 可 以 保证 ， 无 论 你 正在 党 试 解 决 什么 问题 ， 皖 和 弄 块 大 小 绝 不 是 根本 的 解决 之 道 。 
它 看 上 去 很 诱 人 ， 但 请 勿 这 么 人 做。 除非 你 只 是 想 设 置 - -chunksize 1 试 试 ， 盏 则 
请 保持 块 大 小 不 变 。 


2.3 mongos 


mongos 是 用 户 和 集群 则 的 交互 点 ,其 职责 是 隐藏 分 族 内 部 的 复杂 性 并 辣 用 户 (你 ) 
提供 一 个 向 科 的 单 服务 磺 接 口 。 这 个 抽象 层 中 也 存在 一 些 “ 缝 阶 《参见 第 4 章 )， 
不 过 大 多 数 情况 下 mongos 允许 你 把 一 个 集群 当 作 一 台 服 务 器 。 


使 用 集群 时 ， 应 该 连接 一 个 mongos 并 向 它 发 送 所 有 的 读 写 操作 。 无 论 如 何 ， 你 都 
不 应 该 直接 访问 分 片 (但 如 果 想 的 话 能 做 到 )。 


mongos 会 将 所 有 用 户 请 求 转发 到 恰当 的 分 片上 。 如 果 用 户 村 入 一 份 文 档 ，mongos 
会 查看 文档 的 片 键 ， 对 照 数据 块 ， 并 把 文档 发 送 到 持 有 相应 块 的 分 片上 。 


府 个 例子 ， 比 如 说 我 们 要 捅 人 f"foo":"par"} 且 已 经 以 foo 作为 片 键 做 了 分 片 。 
mongos 会 查看 所 有 可 用 的 块 ， 然 后 发 现 有 一 个 区 同 为 ["a","c") 的 块 应 当 包 会 
"par"。 这 个 块 在 分 片 2 上 ， 因 此 mongos 会 把 插入 消息 发 送 给 分 片 2 ( 见 图 2-10) 。 
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2-10; 把 一 个 请 求 路 由 到 包含 对 应 块 的 分 上 请 上 


ae 
人 sm 一 一 一 可 


Linux 公 社 www.linuxidc.com 


如 果 一 个 查询 涉及 了 片 键 ，mongos 就 可 以 使 用 和 插入 一 样 的 流程 并 找到 某 个 (或 
某 些 ) 正确 的 分 片 并 向 其 发 送 查 询 。 这 种 查询 又 称 为 针对 性 查询 (targeted query)， 
因为 它 只 针对 那些 可 能 包含 我 们 所 要 查找 的 数据 的 分 片 。 如 末 它 知道 我 们 在 查找 
{"foo": "bar"}, 那么 查询 所 含 片 键 值 大 于 "bar" 的 分 片 就 没有 什么 意义 了 。 


如 果 查 询 不 包含 片 键 ，mongos 就 必须 把 查询 发 送 给 所 有 分 片 。 这 可 能 会 比 针对 性 查 
询 效 率 低 ， 但 并 不 一 定 。 如 果 一 个 泾 汉 的 查询 仅 访问 内 存 中 少量 已 被 索引 的 文档 ， 
而 一 个 针对 性 查询 不 得 不 访 回 分 布 在 多 个 (其 至 所 有 ) 分 片 中 的 磁盘 数据 ， 两 相 比 
较 ， 前 者 的 性 能 肯定 要 比 后 者 高 得 多 。 


2.4 配置 服务 器 


mongos 进程 并 不 持久 地 存储 任何 数据 ， 集 群 配置 被 保存 在 一 组 专门 的 mongod 上 ， 
它们 被 称 作 配置 服务 器 (config server)。 配 置 服务 器 包含 了 有 关 集 群 的 最 完整 可 靠 
的 信息 以 供 所 有 人 (分 片 、mongos 进程 和 系统 管理 员 ) 访问 。 


要 保证 数据 块 迁 移 成 功 ， 所 有 配置 服务 器 都 必须 同时 在 线 。 如 果 其 中 任意 一 台 停 机 
了 ， 则 当 击 正在 执行 的 所 有 迁移 者 会 回 退 并 停止 ， 直 到 整套 配置 服务 器 再 一 次 运行 
起 来 。 任 何 一 人 台 配 置 服务 器 停机 ， 集 和 群 配置 都 无 法 改变 。 


2.5 ”集群 的 构造 

一 个 MongoDB 集群 基本 上 由 3 类 进程 组 成 ， 即 实际 存储 数据 的 分 片 、 人 负责 把 请 求 
路 由 到 正确 数据 的 mongos 进程 ， 以 及 用 于 跟踪 集群 状态 的 配置 服务 器 ( 见 图 2-11 
和 图 2-12)， 






| 集群 配置 一 一 
配置 服务 器 
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图 2-11， 一 个 集群 的 3 个 组 件 
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图 2-12: 每 个 组 件 可 以 包含 多 个 进程 


以 上 每 个 组 件 都 不 是 “一 台 机 器 ”。mongos 进程 通常 跑 在 应 用 程序 服务 器 (appserver) 
上 。 配 置 服务 器 ， 鉴 于 其 重要 性 ， 是 非常 轻 量 级 的 并 且 基 本 上 可 以 在 任何 机 器 上 运 
行 。 每 个 分 片 通 凋 由 多 台 机 器 组 成 ， 因 为 它们 实际 存储 数据 。 
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3.1 选择 片 键 

选择 一 个 好 的 片 键 非常 关键 。 如 果 选 择 了 一 个 糟糕 的 片 键 ， 它 可 以 立马 或 者 在 访问 
量变 大 时 毁 了 你 的 应 用 程序 ， 也 有 可 能 汐 估 着， 等 竺 着， 没准 儿 什么 时 候 突 然 咒 了 
你 的 应 用 程序 。 

男 一 方面 ， 如 果 你 选择 了 一 个 好 厂 键 ， 只 要 应 用 程序 还 在 正常 运行 ， 而且 只 要 发 现 
访问 量 提高 就 赶紧 添 服务 器 ，MongoDB 就 会 确保 一 直 正 确 地 运行 下 去 。 

正如 在 上 一 章 中 所 学 的 ， 片 键 决定 了 数据 在 集群 中 的 分 布 情况 。 因 此 你 会 希望 存在 
这 样 一 个 片 键 ， 它 既 能 把 读 写 分 散 开 来 ， 又 能 把 正在 使 用 的 数据 保持 在 一 起 。 这 些 
看 似 相 互 直 盾 的 目标 在 现实 中 却 往往 是 可 以 实现 的 。 : 
我 们 先 挑 片 键 的 几 个 反面 例子 找 找茬 ， 然后 再 拿 几 个 较 好 的 例子 来 琢磨 一 番 。 
MongoDB 的 wiki 上 也 有 一 页 与 选择 片 键 相关 且 很 不 错 的 内 容 ， 可 以 看 看 。 





3.1.1 小 基数 片 键 
这 么 个 思路 来 想 :“ 我 有 4 个 分 片 ， 所 以 应 该 用 一 个 有 4 个 可 能 值 的 字段 来 做 片 键 。” 
这 下 一 个 非 贡 精 糕 的 想法 。 


为 什么 呢 ? 


假设 我 们 有 一 个 存储 用 户 信息 的 应 用 程序 。 每 个 文档 有 一 个 continent 字段 
代表 用 户 的 所 在 地 区 ， 其 字段 值 可 以 是 "Aftrjca", "Antarctica",、 "Asia". 
"Australia"., "Europe'", "North Americar' 或 "South America", 考虑 到 我 
们 在 每 个 大 济 都 有 一 个 数据 中 心 一 一 或 许 不 包括 南极 洲 (Antarctica) 并 且 想 从 
和信 们 所 在 “当地 ”的 数据 中 心 为 其 提供 用 户 数据 ， 我 们 决定 按 该 字段 进行 分 片 。 


集合 开始 于 某 个 数据 中 心 的 一 个 分 片 的 初始 块 〈 区 间 (- co , ce ))， 所 有 的 插入 和 
读 取 都 还 在 这 一 个 块 上 。 一 旦 它 变 得 足够 大 ， 就 会 被 划分 成 两 个 块 (区 闻 分 别 为 
(0 ,"Europe") 和 [Europen ce ))。 这 样 一 来 ， 所 有 来 自 非 洲 (Africa)、 南 极 
洲 (Antarctica)、 亚 洲 (Asia) 或 澳大利亚 (Australia) 的 文档 都 会 被 分 到 第 一 块 
上 ， 而 所 有 来 自 欧 训 (Europe)、 北 美 (North America) 或 南美 (South America) 
的 数据 都 会 被 分 到 第 二 块 上 。 随 着 更 多 文档 被 添加 进来 ， 集合 最 终 会 变 成 7 个 块 
( 见 图 3-1)， 
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*" ["Antarctica", "Asia") 
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es ["Asia", "Australia™) 

se ["Australia", "Europe") 

se ["Europe", "North America") 

* ["Northn America","South America") 


* ["South America'", ®) 








Ia 四 | 有 .大 PreErICa 。 


| [ Antartica ， Wl 
"5. America") 2] 


"Antartica") "Asia”) "Australia”) "Europe’) "NN.America") 





图 3-1; 每 个 大 洲 一 个 分 片 

然后 呢 ? 

MongoDB 不 能 再 进一步 分 割 这 些 块 了 1 块 只 能 变 得 越 来 越 大 。 虽 然 暂 时 不 会 出 问 
题 ， 但 是 当 服 务 器 磁盘 空间 开始 逐渐 耗 尽 时 间 题 就 会 浮 出 水 面 了 。 除 了 买 块 更 大 的 
磁盘 ， 你 什么 也 做 不 了 。 

由 于 片 键 值 数 量 有 限 ， 因 此 这 种 片 键 称 为 小 基数 片 键 (low-cardinality shard key )。 
如 果 选 择 了 一 个 基数 很 小 的 片 键 ， 到 头 来 肯定 会 得 到 一 堆 既 巨大 又 无 法 移动 ， 还 不 
能 分 割 的 块 ， 它 们 会 让 你 极为 不 快 ， 这 样 的 生活 你 懂 的 。 

如 果 这 么 做 是 为 了 手动 分 配 数据 ， 那 就 不 要 再 用 MongoDB 内 置 的 分 片 机 制 了 ， 否 
则 它 会 和 你 一 直 抗 争 到 底 。 当 然 ， 不 管 怎 样 你 还 是 可 以 手动 对 集合 进行 分 片 ， 编 写 
目 己 的 路 由 各 ， 并 将 读 写 路 由 到 任何 一 台 (组 ) 服务 器 上 。 只 不 过 选择 一 个 好 片 键 
并 让 MongoDB 来 奉 你 做 这 一 切 更 容易 一 些 。 


1. 适用 的 键 

这 个 规则 适用 于 任何 取 值 个 数 有 限 的 键 。 一 定 要 记得 ， 如 果 在 某 集 合 中 一 个 键 有 N 
个 值 ， 那 就 只 能 有 NN 小数 据 块 ， 因 此 也 只 能 有 六 个 分 片 。 

如 入 打算 采用 小 基数 片 键 的 原因 是 需要 在 那个 字段 上 进行 大 量 查询 ， 请 使 用 组 


合 片 键 (一 个 片 键 包含 两 个 字段 )， 并 确保 第 二 个 字段 有 非常 多 不 同 的 值 可 以 供 
MongoDB 用 来 进行 分 割 。 


2. 例外 
如 果 一 个 集合 有 生命 周期 (例如 ， 每 周 都 创建 一 个 新 的 集合 而 且 你 知道 ， 在 一 周 时 
间 里 数据 量 不 会 接近 任何 分 片 的 最 大 容量 )， 就 可 以 选择 这 个 生命 周期 为 片 键 。 
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3. 数据 中 心 感知 

这 个 例子 不 仅仅 是 关于 选择 小 基数 片 键 的 ， 还 与 在 MongoDB 分 片 机 制 中 添加 数据 
中 心 感知 (data-center awareness) 支持 的 党 试 有 基 。 到 目前 为 止 ， 分 斤 尚 不 支持 数 
据 中 心 感知 。 如 果 对 此 感 兴趣 ， 可 以 查看 或 对 相关 的 问题 投票 。 


靠 使 用 者 目 己 实现 的 问题 在 于 其 扩展 性 井 不 是 很 好 。 如 采 你 的 应 用 最 近 在 日 本 很 流 
行 怎 么 办 ? 你 可 能 会 想 添加 第 二 个 分 片 来 应 付 亚 洲 地 区 的 访问 量 。 


昌 古 你 打算 如 何 迁 移 数 据 呢 ? 一 个 数据 块 增长 到 好 几 GB 大 ， 你 就 设法 移动 它 了 ， 
而 且 也 不 能 再 分 割 块 ， 因 为 整个 块 就 只 有 一 个 片 键 值 。 由 于 片 键 值 无 法 更 新 ， 因 此 
也 不 可 能 通过 更 新 所 有 文档 来 使 用 一 个 更 独特 的 片 键 值 。 可 以 删除 每 个 文档 ， 更 新 
片 键 值 ， 然 后 再 把 它 重新 保存 回去 ， 但 是 对 于 大 型 数据 库 而 言 那 并 不 是 一 个 能 迅速 
完成 的 操作 。 


你 所 能 做 的 最 好 的 事情 就 是 在 插入 文档 时 开始 用 "Asia,Japan" 替代 简单 的 
"AS1a", 这 样 一 来 会 有 - 批 旧 廊 档 ， 其 片 键 值 应 读 是 "Asla,Japan" 但 却 是 
"Asia"， 因 此 应 用 程序 逻辑 就 不 得 不 同时 支持 两 种 情况 。 另 外 ， 一 旦 开始 拥有 更 细 
粒度 的 块 ， 就 不 能 保证 MongoDB 还 会 把 它们 放 在 你 所 期 望 的 地 方 (除非 关闭 平衡 
合并 手动 处 理 所 有 事情 )。 


数据 中 心 感知 对 于 大 型 应 用 非常 重要 ， 而且 它 对 MongoDB 的 开发 者 有 很 高 的 优先 
级 。 在 这 期 间 选 择 一 个 小 基数 片 键 绝 不 会 是 一 个 好 的 解决 方案 。 


3.1.2 升序 片 键 

从 RAM 中 旋 取 数据 要 比 从 磁盘 中 读 取 快 ， 所 以 目标 是 尽 可 能 多 地 访问 内 存 中 的 数据 。 
因此 ， 如 过 有 些 数据 总 是 被 一 起 访问 ， 我 们 就 希望 片 键 能 够 把 它们 保持 到 一 起 。 对 大 
部 分 应 用 程序 而 言 ， 新 数据 被 访问 的 次 数 总 比 老 数 据 多 ， 所 以 人 们 往往 会 尝试 使 用 诸 
如 时 间 惟 或 者 objectId 一 类 的 字段 来 做 片 键 。 但 是 这 并 不 像 他 们 所 期 望 的 那样 可 行 。 


比方 说 我 们 有 一 个 类 似 微 博 的 服务 ， 其 中 每 个 文档 都 包含 一 条 短 消息 、 发 送 人 以 及 
发 述 时 间 。 我 们 按 发 送 时 间 字 段 来 分 片 ， 取 值 为 自 公元 元 年 起 经 过 的 秒 数 。 


和 往 前 一 样 ， 还 是 从 一 个 数据 块 (- 一, ce) 开始 。 全 部 插 人 都 会 落 到 这 个 分 片上 
耳 至 它 分 裂 成 两 个 块 ， 比 如 说 (- ce , 1294516901) 和 [1294516901， co )。 由 于 是 
从 乒 键 中 点 把 块 分 开 来 的 ， 所 以 在 我 们 分 割 块 的 那 一 刻 ， 时 间 惟 很 可 能 已 经 远大 干 
1294516901。 这 莫 味 着 下 往 后 所 有 的 桂 人 都 会 落 到 第 二 个 块 上 ， 不 会 再 有 插 人 人 模 作 
译注 1: 2.0 版 本 已 发 生变 化 ， 详情 见 http-www-mongodb.orgydisplaWDOCS/2.0HRelease+Notesf#2.0ReleaseNotes- 


Datacenterawarencss. 
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命中 第 一 个 块 。 一 旦 第 二 个 块 填 满 了 ， 它 就 会 分 裂 成 [1294516901,1294930163) 和 
[1294930163, ce ) 两 个 块 。 但 是 因为 从 现在 起 时 间 都 在 1294930163 之 后 ， 所 以 新 
的 插入 都 会 被 添加 到 区 则 为 [1294930163，c<=o ) 的 块 上 。 这 个 模式 会 持续 下 去 : 所 有 
数据 总 是 被 添加 到 “最 后 ”一 个 数据 块 上 ， 即 所 有 数据 都 会 被 添加 到 一 个 分 片上 。 


这 个 厂 键 创 氨 了 一 个 单一 且 不 可 分 散 的 热点 。 


1. 适用 的 键 

这 条 规则 适用 于 任何 升序 排列 的 键 值 ， 而 并 不 必须 是 时 间 翼 。 其 他 例子 包括 objectId， 
日 期 、 自 增 主键 (很 可 能 是 从 其 他 数据 库 导入 的 )。 只 要 键 值 趋向 于 无 穷 大 ， 你 就 会 
面临 这 个 问题 。 


2. 例外 

基本 上 ， 这 种 片 键 总 是 一 个 坏 主 意 ， 因 为 它 导致 热点 必然 存在 。 如 果 访 问 量 不 大 且 
用 一 个 分 片 就 能 承受 所 有 读 写 ， 那 还 行 得 通 。 当 然 ， 如 果 册 到 一 个 访问 量 涉 峰 或 者 
应 用 开始 变 得 更 受 欢迎 ， 那 它 终 会 停止 工作 并 且 难 以 修复 。 


除非 你 非常 清楚 自己 在 干什么 ， 否 则 不 要 使 用 升序 片 键 。 肯 定 还 有 更 好 的 片 键 存在 ， 
应 该 避免 使 用 这 一 个 。 


3.1.3 ”随机 片 键 
有 时 为 了 避免 热点 ， 人 们 会 选择 一 个 取 值 随机 的 字段 来 分 片 。 采 用 这 种 片 键 一 开始 
还 不 错 ， 但 是 随 着 数据 量 越 变 越 大 ， 它 会 变 得 越 来 越 慢 。 


假设 我 们 在 分 片 集 合 中 存储 照片 的 缩 略 图 。 每 个 文档 都 包含 了 照片 的 二 进 制 数据 . 
一 进 制 数据 的 MDS 散 列 值 ， 以 及 一 段 描述 、 拍 照 时 间 和 拍照 人 。 我 们 决定 在 MD5 
散 列 值 上 做 分 片 。 


随 着 集合 的 增长 ， 我 们 最 终 会 得 到 一 组 均匀 分 布 于 各 分 片 的 数据 块 。 目 前 为 止 一 切 
及 利 。 现 在 ， 假 设 我 们 非常 位 而 分 片 2 上 的 一 个 块 填 满 并 分 弄 了 。 配 置 服 务 器 注音 
到 分 片 2 比分 上 乒 1 多 出 了 10 个 块 并 判定 应 该 抹 平分 片 间 的 差距 。 这 样 MongoDB 就 
需要 随机 加 载 5 个 块 的 数据 到 内 存 中 并 将 其 发 送 给 分 片 1。 考 虑 到 数据 序列 的 随机 
性 ， 一 般 情 况 下 这 些 数 据 可 能 不 会 出 现在 内 存 中 。 所 以 此 时 的 MongoDB 会 给 RAM 
市 来 更 大 压力 ， 而 且 还 会 引发 大 量 磁盘 IO (磁盘 IO 痢 是 非常 慢 ) 。 


除 此 以 外 ， 片 键 上 必须 有 索引 ， 因 此 如 果 选 择 了 从 不 依据 它 进 行 查询 的 随机 键 ， 基 
本 上 可 以 说 是 “浪费 ”了 一 个 索引 。 另 外 ， 考 虑 到 每 增加 一 个 索引 都 会 让 写 操 作 变 
得 更 慢 ， 所 以 保持 索引 数量 尽 可 能 低 也 是 非常 重要 的 。 
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3.1.4 好 片 键 

我 们 真正 需要 的 是 一 种 将 访问 模式 也 考虑 进去 的 方案 。 如 果 应 用 会 规律 性 地 访问 25 
GB 的 数据 ， 我 们 就 希望 所 有 的 分 割 和 迁移 都 发 生 在 这 25 GB 数据 上 ， 而 不 是 随机 
访问 数据 以 至 于 不 断 地 有 新 数据 被 从 磁盘 中 复制 到 内 存 里 。 


因此 我 们 希望 能 找到 这 样 一 个 片 键 ， 它 具备 有 民 好 的 数据 局 部 性 (data locality) 特 
征 ， 但 又 不 会 因 太 局 部 而 导致 热点 出 现 。 


1. 准 升 序 键 加 搜索 键 

许多 应 用 访问 新 数据 比 老 数 据 更 频 甘 ， 所 以 我 们 希望 数据 大 致 上 按照 时 间 排 序 ， 但 
是 同时 也 要 均匀 分 布 。 这 样 一 来 既 能 把 我 们 正在 读 写 的 数据 保持 在 内 存 中 ， 又 可 以 
使 负载 均衡 地 分 散在 集群 中 。 


我 们 可 以 通过 像 {coarselyAscending:1,search:1} 这 样 的 组 合 片 键 (compound 
shard key) 来 实现 日 标 。 其 中 coarselyAscending 键 的 每 个 值 最 好 能 对 应 几 十 到 
几 百 个 数据 块 ， 而 search 键 则 应 当 是 应 用 程序 通常 都 会 依据 其 进行 查询 的 字段 。 


从 个 例子 ， 比 如 说 有 个 分 析 程 序 ， 用 户 会 定期 通过 它 访问 过 去 一 个 月 的 数据 ， 而 我 
们 希望 能 尽量 保持 数据 易于 使 用 。 因 此 可 以 在 {month:1,user:1} 上 分 片 ， 其 中 
month 十 一 个 粗 粒 庶 的 升 夺 字 段 ， 即 每 个 月 它 都 会 有 一 个 更 新 更 大 的 值 。uwuser 适 
合作 为 第 二 个 字段 ， 因 为 我 们 会 经 当 查 询 某 个 特定 用 户 的 数据 。 


还 是 从 一 个 数据 块 开 始 ， 组 合 区 间 是 〈(- ee ,-e) ,(ce, ce))。 当 它 被 十 满 ， 
我 们 将 其 分 为 两 个 块 ， 比 如 区 间 ((r- ce ,-c) ("2011-04","susan")) 和 
[ ("2011-04","susan") ， (co ,ce))。 假 设 现在 还 是 4 月份 ("2011-04")， 则 所 
有 上 的 写 操作 都 会 被 均 邹 地 分 到 两 个 数据 块 上。 所 有 用 户 名 小 于 "susanv 的 用 户 都 会 
被 放 在 第 一 个 块 上 ， 而 所 有 用 户 和 名 大 于 "Susan" 的 用 户 都 会 被 放 在 第 二 个 块 上 。 


随 着 数据 持续 增长 ， 这 个 方案 还 会 继续 有 效 。4 月 里 后 续 创建 的 块 都 会 被 称 动 到 不 
同 的 分 片上 ， 从 而 确保 了 读 写 在 集群 中 的 负载 均衡 。 等 5 月 到 来 时 ， 我 们 开始 创建 
边界 为 "2011-05" 的 块 。 随 着 6 月 悄然 而 至 ，"2011-04" 的 数据 块 已 然 无 人 间 津 ， 
所 以 怀 可 以 将 这 些 块 安静 地 换 出 内 存 使 之 不 再 占用 和 资源。 尽管 以 后 仍 有 可 能 因为 历 
史 原 因 再 碍 看 这 些 块 ， 但 是 应 该 不 需要 再 分 制 或 迁移 它们 了 (使 用 随机 索引 难以 避 
他 的 问题 )。 


2. 营 见 问题 
为 什么 不 将 {ascendingKey : 1} 用 作 片 键 ? 
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在 3.1.2 节 提 到 过 ， 如 果 你 把 它 和 一 个 粗 粒 度 的 升序 甸 合 在 一 起 用 ， 还 是 会 创造 出 
一 堆 巨 大 且 无 法 分 割 的 数据 块 。 


search 字段 可 不 可 以 也 是 升序 字段 ? 


不 可 以 。 如 委 是 ， 则 该 片 键 会 降级 成 一 个 升序 片 键 ， 进 而 使 你 同样 面临 普通 升序 键 
带 来 的 热点 问题 。 


search 字段 应 该 是 什 公 


search 字段 最 好 是 应 用 程序 可 以 用 于 查询 的 东西 ， 比 如 用 户 信息 (比如 上 面 的 例 
于)、 文 件 名 字段 或 者 GUID 等 。 它 应 该 具备 非 升序 、 分 布 随 机 且 基 数 适 当 的 特点 。 


3. 一 般 情 况 
基于 上 面 的 内 容 ， 我 们 可 以 概括 出 一 个 片 键 公式 : 
{ coarseLocality : 1l,search : 1} 


其 中 coarseLocality 字段 用 来 控制 数据 局 部 化 。search 字段 则 是 数据 上 常用 到 
上 一 个 榨 索 字段 。 


这 个 键 并 不 是 唯一 可 能 的 片 键 ， 也 不 会 在 任何 情况 下 都 有 效 。 尽 管 如 此 ， 即 便 你 最 
终 并 不 使 用 它 ， 但 束 司 发 思考 如 何 选择 片 键 而 言 ， 这 仍 是 一 个 好 的 开始 。 


4. 我 该 用 哪 种 片 键 
真 的 没 办 法 告诉 你 ， 因 为 我 并 不 了 解 你 的 应 用 程序 。 不 过 选择 一 个 好 的 片 键 应 该 会 
花费 一 些 功夫 。 在 选 定 一 个 片 键 之 前 ， 不 妨 先 想 想 下 面 这 些 问 题 的 答案 。 


*。 写 操作 是 怎 样 的 ?你 要 插 和 人 什么 文档 ， 有 多 大 1? 
。 系统 每 小 时 会 写 多 少数 据 ? 每 天 呢 ?” 高 峰 期 呢 ? 
* 哪些 字段 取 值 是 随机 的 ， 哪 些 是 增长 的 ? 

* 斌 操 作 走 怎样 的 ? 人 们 在 访问 哪些 数据 ? 

* 系统 每 小 时 会 读 多 少数 据 ? 每 天 呢 ? 高 峰 期 呢 ? 
* 数据 做 素 5[ 了 吗 ? 应 不 应 该 索引 呢 ? 

*。 数据 总 量 有 多 少 ? 


也 许 你 还 会 在 数据 中 发 现 其 他 一 些 模 式 ， 那 就 利用 起 来 ! 在 进行 分 片 之 前 ， 你 需要 
消 楚 地 了 解 你 的 数据 。 
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3.2 ”新 老 集 合 分 片 


一 旦 选择 好 片 键 ， 就 可 以 进行 数据 分 片 了 了。 


3.2.1 快速 起 步 

如 果 想 尽快 建立 起 一 个 集群 玩 玩 看 ， 用 Github 上 的 mongo-snippets 只 要 一 两 分 钟 
就 能 建 好 一 个 。 它 的 文档 有 点 少 ， 但 是 这 个 库 基 本 上 就 是 一 组 对 用 户 非 党 有 用 的 脚 
本 。 其 中 特别 有 趣 的 一 个 是 simple-setup.py， 它 能 目 动 地 启动 、 配 置 和 生成 一 个 集 
群 (本 地 的 )。 

要 运行 这 个 脚本 ， 需 要 MongoDB 的 Python 驱动 。 如 果 没 有 ， 可 以 通过 执行 下 面 的 
语句 来 安装 (在 *NIX 系统 上 ) : 





$ sudo easy install pymongo 
一 旦 Pymongo 装 好 了 ， 下 载 mongo-snippets 库 并 执行 下 面 的 命令 ， 

$ Python sharding/simple-setup.py --path=/path/to/your/mongodb/binaries 
这 里 有 人 和 根 和 多 其 他 可 用 的 选项 ， 执 行 Python sharding/simple-setup.py-help 
可 得 咬 和 它们。 这 个 脚本 有 点 挑 易 ， 所 以 请 确保 使 用 完全 路 径 (例如 /home/user/ 
mongo-install ， 而 非 ~/mongo-install). 
simple-setup.py 会 司 动 一 个 mongos 进程 ， 地 址 为 localhost:27017， 这 样 就 可 以 用 
shell 命令 连 上 它 来 使 用 了 。 
如 来 想 建立 一 个 企业 级 集群 ， 请 继续 读 下 去 。 


3.2.2 ”配置 服务 器 
你 可 以 运行 1 个 或 3 个 配置 服务 部。 我 们 会 采用 3 个 配置 服务 器 ， 在 生产 环境 里 任 
何 时 候 都 应 当 这 么 做 ， 


“个 或 3 个 ”是 个 奇怪 且 有 些 专 断 的 限制 原因 是 1 个 适 干 竹 试 环境 ， 而 

3 个 通 于 生产 环境 。2 个 对 测试 环境 来 说 多 了 ， 对 生产 环境 来 说 义 不 能 。 

不 能 运行 任意 个 数 的 配置 服务 器 ， 因 为 它们 之 间 的 交互 是 复杂 的 ,而 

旦 MM 个 配置 服务 器 中 停 掉 N 个 时 的 处 理 有 逻辑 和 编程 都 非常 困难 。 和 将 来 
MongoDB 可 能 会 支持 任意 个 数 的 配置 服务 器 ,但 这 并 不 是 当 务 之 皇 ， 

公 直 配置 服务 每 很 乏味 ， 因 为 它们 只 是 普通 的 mongod 实例 。 设 置 时 唯一 要 注音 的 
是 ， 由 于 需要 它们 中 的 部 分 配置 服务 器 一 直 正 常 运 行 ， 所 以 应 尽 可 能 把 它们 分 到 不 
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同 的 故障 域 (failure domain) 里 。 
比方 说 我 们 有 3 个 数据 中 心 ， 一 个 在 纽约 ， 一 个 在 旧金山 ， 还 有 一 个 在 月 球 上 。 此 
时 只 需 每 个 数据 中 心 启动 一 个 配置 服务 器。 


$ ssh ny-01 
ny-01ls$ mongod 


$$ sgh sf-01 
sf-01s$ mongod 


$s SBSh moon-=-01 
moOoon-01$ mongod 


就 这 么 人 简单! 


你 可 能 会 从 上 面 的 设置 中 发 现 一 个 小 问题 。 这 些 本 应 联系 密切 的 服务 器 并 不 知道 其 
他 服务 颖 的 存在 抑或 知道 它们 扮演 着 配置 服务 器 的 角色 。 没 有 问题 一 一 接 下 来 我 们 
会 介绍 它们 相互 认识 。 


| 有 时 人 们 认为 必须 在 配置 服务 器 上 设置 复制 。 实 际 上 配置 服务 器 并 不 使 用 
-E> “普通 ”mongod 所 采用 的 复制 机 制 ， 而 且 也 不 应 该 按 副本 集 或 主 从 设置 启 


动 。 只 要 把 配置 服务 器 当做 未 连接 的 普通 mongod 启动 就 行 了 。 
当 你 启动 配置 服务 器 时 ， 运 行 mongoda -help 的 输出 中 “General Option” 下 面 的 
选项 可 以 随意 使 用 ,但 --keyFile 和 --auth 除外 。 分 片 现在 还 不 支持 认证 ， 但 在 
到 达 1.9 版 的 半路 上 这 应 该 有 所 改变 。! 
市 --quiet 参数 运行 可 不 是 一 个 好 主意 ， 因 为 如 果 出 了 问题 就 需要 能 弄 清 楚 发 生 了 
什么 。 可 以 用 --logpath «<file> 和 ~--l]logappengd 来 代替 - -Ulet 将 日 志 发 送 
到 杀 处 ， 这 样 如 果 出 问题 ， 就 有 日 志 可 以 回 济 ， 
Sharding (分 片 ) 选项 适用 于 分 片 ， 而 非 配置 服务 器 ， 所 以 可 以 忽略 它们 。 你 也 不 
需要 其 他 (Replication、Replica set 或 者 Master/slave 下 面 的 ) 选项 ， 因 为 你 不 会 在 
上 直上 版 务 酷 上司 用 复制 机 制 ， 对 吧 ? 


3.2.3 mongos 
接 下 来 是 启动 mongos 进程 。 一 个 分 片 配置 需要 至 少 一 个 mongos， 但 无 上 限 。 要 记 
住 必须 (至 少 应 该 ) 监视 所 有 mongos 进程 ， 因 此 你 很 可 能 不 会 想 启 动 数 千 个 进程 ， 


译注 1， 2.0 版 本 已 发 生变 化 ， 详情 网 http://www.mongodb.org/display/DOCS/2.0+Release+Notes#2.0ReleaseNotes- 
ShardingAuthentication。 
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一 般 来 说 每 个 应 用 程序 服务 器 一 个 mongos 进程 就 挺 好 。 接 下 来 我 们 登录 应 用 程序 
服务 器 并 启动 第 一 个 mongos。 


$ Ssh ny-02 
ny-0ls mongos --conftigdDb ny-0l,sft-0l1,moon~-yl 


按 下 回 车 ， 现 在 所 有 配置 服务 每 都 知道 其 他 配置 服务 各 了 。mongos 就 像 派 对 上 的 主 
人 ， 会 介绍 宾客 们 相互 认识 。 


现在 你 有 了 一 个 微型 集群 。 尽 管 还 不 能 存 任何 数据 进去 (配置 服务 器 只 存 配置 不 存 
数据 ) ， 但 是 除 此 以 外 ， 它 完全 可 以 正常 工作 。 


你 可 能 想 用 数据 库 读 写 数 据 ， 所 以 让 我 们 添 一 些 数据 存储 机 制 进来 。 


3.2.4 分 片 
集群 上 的 所 有 管理 工作 都 是 通过 mongos 完成 的 。 所 以 ， 先 用 shell 命令 连 上 之 前 启 
动 的 mongos。 

$ mongo ny-02:27017/admin 

MonNnGgoDB shell version: 1.7.5 


connecting to: admin 


确认 当前 使 用 的 是 admin 数据 库 ， 设 置 分 片 需要 在 admin 数据 库 中 执行 命令 。 


一 且 连 上 ， 就 可 以 添加 分 片 了 。 添 加 分 片 有 两 种 方法 ， 使 用 哪 种 取决 于 分 片 是 
单个 服务 融 还 是 副本 集 。 假 设 我 们 有 一 个 服务 器 sf-02， 一 直 用 来 放 数 据 。 执 行 
addsharad 命令 我 们 可 以 让 它 成 为 第 一 个 分 片 ， 

> Gb.runcommand{l{"addshard" : "sf-02:27017"})) 

{ "ahardadded" : "shard0000", "ok" : 1 } 
这 个 命令 将 服务 絮 添 加 到 集群 中 。 现 在 可 以 存储 和 查询 数据 了 。( 如 果 存 储 数据 时 还 
不 存在 任何 可 以 用 于 存储 数据 的 分 片 ，MongoDB 会 提示 错误 ， 理 由 不 言 自明 ,) 
通 凋 情 次 下 ， 应 该 用 副本 集 (而 非 单个 服务 器 ) 来 做 每 个 分 片 。 副 本 集 能 提供 更 好 
的 可 用 性 。 要 添 一 个 副本 集 分 片 ， 炒 须 传 给 全 令 addshard 一 个 形 如 "setName/ 
seedl [,seed2 [,seed3[,...]]]" 的 字符 串 ， 即 必须 提供 副本 集 的 名 称 和 至 少 一 
个 集合 成 员 (mongos 可 以 推出 其 他 成 员 ， 前 提 是 它 能 连 上 它们 中 任意 一 个 ) 。 
举 个 例子 ， 如 果 我 们 有 个 副本 集 叫 做 rs， 其 成 员 为 rsJ-a、rs1-b 和 rsT-c。 我 们 可 以 
执行 : 


建立 集群 | 31 


Linux 公 社 www.linuxidc.com 


> db .runcommand ("addshard" 。 nrs/ral-a,rsl-c"}) 
{ "shardaAdded" : "rs", "ok" : 1 | 


注意 ， 这 一 次 得 到 的 名 称 漂 亮 多 了 ! (我 就 是 那个 写 程序 让 它 挑 出 副本 集 名 称 的 人 ， 
所 以 对 这 点 感到 特别 自 宫 。) 如 果 渗 加 一 个 副本 集 ， 则 它 的 名 称 会 成 为 分 片 的 名 称 。 


by 可 以 随意 命名 分 片 。 如 果 不 想 使 用 默认 值 ， 就 在 添加 分 片 时 加 上 name 字段 。 
Fa 
We 是。 


> db .runcommand (fn"addshardn" : "sf-02:27017", "name" : 
"Golden Gate shard"}) 
{ "shardAdded" : "Golden Gate shard", "ok" : 1 1 


> db.runcommand({"addshard" : "setl/rsl-a,rsl-b", "name" : 
"replicaset1i"}) 
{ "shardAdded" : "replicaSet1i", "ok" : 1 】 
某 些 场合 下 你 将 不 得 不 使 用 名 宝来 引用 分 片 ( 见 第 5 童 )， 所 以 别 把 名 字 定 
得 太 长 玉 疯 狂 。 


限制 分 片 大 小 

默认 情况 下 ，MongoDB 会 在 分 片 间 均匀 地 分 配 数 据 。 如 果 使 用 的 是 一 组 通用 配置 
服务 如， 那 这 吏 很 有 用 ， 但 如 果 有 一 个 台 10 TB 的 机 悍 机 器 ， 而 另 一 台 是 就 几 百 
它 可 以 用 来 指定 分 片 能 增长 到 的 最 大 存储 量 ， 单 位 MB 。 


要 记 住 maxsize 更 像 是 一 个 建议 而 非 规定 。MongoDB 不 会 从 maxsize 处 截断 一 个 
分 片 ， 或 是 阻止 它 再 增加 哪怕 一 个 字 节 ， 而 是 会 停止 将 数据 移动 到 该 分 片 ， 当 然 还 
可 能 会 挪 走 一 部 分 数据 ， 如 果 它 觉得 这 人 么 做 合适 的 话 。 所 以 设置 这 个 值 时 可 以 略微 
低 一 些 。 


maxSize 是 addshard 命令 的 又 一 个 选项 ， 如 果 想 要 设置 一 个 分 片 只 使 用 20 GB， 
可 以 执行 : 





> db.runCcommand({"addShard" : "sfo/serverl,server2'", "maxSize" : 20000 } ) 


将 来 ，MongoDB 会 自动 分 析出 在 每 个 分 片上 可 以 配置 多 少 空 间 并 相应 地 做 计划 。 
在 此 期 间 ， 你 可 以 使 用 maxsize 给 它 一 个 提示 。 


坏人 在 你 终于 有 了 一 个 全 副 武 装 且 可 以 运行 的 集群 ! 


3.2.5 ”数据 库 和 集合 
如 果 想 要 MongoDB 来 帮 你 分 配 数据 ， 哎 要 让 它 知 道具 体 需 要 处 理 的 数据 库 和 集合 。 
在 尝试 对 一 个 数据 库 中 的 集合 进行 分 片 前 ， 你 必须 先 告诉 MongoDB 该 数据 库 可 以 
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包含 分 片 集合 。 
假设 我 们 在 写 一 个 博客 程序 ， 所 有 集合 都 在 blog 数据 库 中 。 我 们 可 以 用 如 下 命令 来 
启用 分 片 : 


> db.admincCommand({"enableSharding" : "blog"}) 
{ "ok" : 1 


现在 就 可 以 对 集合 进行 分 片 了 。 要 进行 分 片上 必须 指定 集合 和 片 键 。 假 设 我 们 在 
{"date"” : 1,"author" : 1} 上 分 搬 : 


> db.admincommana ({"shardCollection" : "blog.posts", key : {"date" : 1, 
nauthor" : 1}} 
{ "collectionsharded" : "blog.posta", "ok" : 1 | 


注意 ， 命 令 里 包含 了 数据 库 名 blog.posts ， 而 非 posrs。 


如 朱 要 对 一 个 已 经 包含 数据 的 集合 进行 分 片 ， 数 据 片 键 上 必须 有 索引 。 所 有 文档 也 
邦 必 须 有 片 键 值 【 且 值 不 能 为 null)。 在 集合 分 片 完成 后 ， 才 可 以 插入 片 键 值 为 
null 的 文档 。 


3.3 ” 增 减 容量 


随 大 应 用 持续 增长 ， 你 需要 添加 更 多 的 分 片 。 添 完 新 分 片 以 后 ，MongoDB 就 会 从 
老 分 片 问 新 分 片 移动 数据 。 注 音 ， 数 据 移 则 压力 增 。 当 然 ，MongoDB 会 尽 可 能 轻 
柔 地 迁移 数据 ， 它 会 每 次 一 个 块 地 慢 慢 移动 数据 ， 如 果 服 务 器 看 起 来 很 忙 就 等 会 儿 
再 试 。 尽 省 如 此 ， 无 论 MongoDB 多 么 轻巧 地 操作 ， 移 动 数据 块 仍然 会 加 重负 载 ， 


这 千 味 着 如 果 等 服务 器 容量 耗 尽 再 添加 分 片 ， 添 加 新 分 片 可 能 会 导致 应 用 程序 在 一 系 
列 连锁 反应 下 逐步 次 病 。 假 设 现 有 分 片 就 快要 达到 最 大 容量 了 ， 所 以 你 添 一 个 新 分 片 
进来 帮助 处 理 负 载 。 平 衡器 会 告诉 分 片 1 给 新 分 片 发 送 一 个 数据 块 。 分 片 1 的 内 存 刚 
刚 够 容 下 应 用 程序 运行 时 数据 ， 而 现在 它 将 不 得 不 把 一 整个 数据 块 加 载 进 内 存 。 为 了 
给 新 加 载 的 块 腾 出 足够 空间 ， 应 用 程序 所 使 用 的 数据 开始 被 换 出 RAM。 这 意味 着 应 
用 程序 不 得 不 开始 访问 磁 失 ， 而 MongoDB 正在 为 那 块 被 加 载 的 数据 访问 磁盘 ， 否 
疝 耗 时 开始 延长 ， 请 求 也 逐渐 排 起 长 队 ， 这 进一步 导致 了 问题 亚 化 ( 见 图 3-2)， 


季 到 的 救 训 古 什么 ? 要 在 还 有 足够 空间 做 调度 时 添加 分 片 。 如 果 已 经 没有 那么 多 空 
间 了， 就 等 到 半夜 三 更 (或 者 另外 一 个 非 忙 时 段 ) 再 添加 分 片 。 如 果 没有 非 忙 时 段 ， 
和 而且 已 经 棱 了 太 长 时 间 ， 还 有 一 些 办 法 来 破解 困 局 ， 但 是 这 些 方法 既 不 有 趣 也 不 容 
急 。(《 可 以 用 现存 备份 让 分 片 借 己 还魂 ， 然 后 手动 更 改 config.chunks 集合 ， 再 重启 
整个 集群 ， 但 很 明显 这 种 做 法 并 不 被 提倡 。) 所 以 添加 分 片 要 尽 旱 做， 经常 做 。 
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我 想 使 用 这 
部 分 RAM 






应 用 程序 服务 器 到 
三 租 


3-2: 移动 块 会 迫使 数据 被 换 出 RAM， 导 致 更 多 请 求 命中 磁盘 并 拖 慢 整个 系统 


那么 再 回想 一 下 ， 如 何 添 加 分 片 呢 ?方法 和 前 面 添 加 第 一 个 分 片 是 一 样 的 ， 用 
addSshard 命令 。 


之 后 再 添加 分 片 有 一 点 很 有 意思 ， 即 分 片 不 必 是 空 的 。 分 片 不 能 包含 集群 中 已 有 的 
数据 库 ， 但 是 如 采集 群 里 有 一 个 foo 数据 库 ， 而 新 添加 的 分 片 里 包含 bar 数据 库 ， 
那么 不 会 产生 任何 问题 ， 因 为 配置 服务 器 会 注意 到 它 ， 而 它 会 出 现在 集群 信息 中 。 
因此 ， 如 采 你 愿意 ， 可 以 把 多 个 不 同 的 系统 集中 起 来 攒 出 一 个 大 号 的 分 片 集群 。 


3.3.1 移 除 分 片 

有 时 也 需要 移 除 分 片 。 革 些 人 可 能 过 早 地 进行 了 分 片 或 者 选 错 了 片 键 ， 所 以 想 把 所 
有 东西 都 放 回 到 一 个 分 片上， 然后 转 储 ， 然 后 恢复 ， 然 后 重新 来 过 。 你 可 能 只 是 想 
让 某 些 服务 器 下 线 。 


removeShard 命令 可 以 用 于 从 集群 中 摘除 分 片 。 
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> db.runcommand({removeShard : "Golden Gate shard"}) 


| 


| 


"magsg" : "draining started successiully", 
"state" : "gtarted", 

rahard" : "Golden Gate shard", 

nok" : 1 


注意 ， 消 息 是 说 “started successfully”( 已 局 动 成 功 )。 在 移 除 一 个 分 片 前 需要 把 分 
片上 的 所 有 信息 都 转移 到 其 他 分 片上 。 正 如 前 面 提 到 的 ， 在 分 片 间 挪 动 数据 非常 耗 
上 时。removeShard 命令 会 立即 返回 ， 你 必须 通过 轮 询 了 解 操 作 是 否 已 经 完成 。 如 人 
再 调用 一 次 ， 就 会 看 到 像 这 样 的 消息 : 


> db.runCommand({removeShard : "Golden Gate shard"}) 


{ 


} 


"msg" : "draining ongoing", 
state”" : "ongoing", 
"remaining" : 1 


rohunks" : NumberDLong (2), 
"dbs" :; NumberLong'‘'1)} 


了 DK 9 . 1 


一 旦 完成 ， 其 状态 会 变 成 “completed”。 那 之 后 ， 就 可 以 安全 地 关闭 分 片 了 (或 者 
把 它 当 做 一 个 未 分 片 的 MongoDB 服务 器 来 用 )。 


> db.runcommand({removeShard : "Golden Gate shard"}) 


} 


"msg" : "removeahard completed successftully", 
"state”" : "completed", 

"shard" : "Golden Gate shard", 

"ok" :; 1 


这 意味 着 分 片 已 经 完全 清空 并 可 以 关机 或 挪 做 它 用 了 。 


3.3.2 ”修改 分 片 中 的 服务 器 

如 果 使 用 了 副本 集 ， 可 以 添加 或 删除 副本 集中 的 服务 器 ， 而 mongos 会 注意 到 这 些 
变化 。 要 修改 基 个 集群 中 的 副本 集 ， 就 假定 它 是 独立 运行 的 来 进行 :连接 主 服务 器 
(而 非 通过 mongos) 并 修改 相应 配置 。 
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查询 MongoDB 集群 通常 和 查询 mongod 是 一 样 的 。 尽 管 如 此 ， 还 是 有 些 例外 情况 
值得 了 解 一 下 。 


4.1 查询 

如 果 使 用 副本 集 旦 meningos 为 1.7,4 或 更 高 版 本 ， 你 可 以 把 读 分 散 到 集群 的 从 机 
上 。 这 样 就 能 很 轻松 地 处 理 读 人 负载， 当然 CAP 原则 也 会 应 验 : 你 必须 要 接受 过 时 
的 数据 。 

要 通过 mongos 查询 一 台 从 机 ， 无 论 使 用 哪 种 驱动 都 必须 设置 “slave okay” 选 项 
(基本 上 就 是 确认 接受 有 可 能 过 期 的 数据 )。 在 shell 里 ， 看 起 来 就 像 这 样 ， 








> db.getMongo() .setSlaveOkl) 


接着 正常 查询 mongos 即 可 。 


4.2 为 什么 会 这 样 


使 用 集群 时 ， 束 不 能 把 整个 集合 看 做 是 一 个 “即时 快照 ”(snapshot in time) 了 。 很 
多 人 撞 了 南 墙 才 意 识 到 这 个 问题 的 严重 性 ， 所 以 让 我 们 来 看 看 这 个 问题 对 应 用 程序 
的 一 些 常见 影 响 。 


4.2.1 计数 
当 你 在 一 个 分 片 集合 上 进行 计数 (count) 时 ， 可 能 得 不 到 期 望 的 结果 ， 可 能 是 一 个 
比 实际 文档 量 多 得 多 的 数 。 


计数 的 工作 方式 是 通过 mongos 将 count 命令 发 送 给 集群 中 的 每 个 分 片 。 然 后 ， 每 
个 分 厂 各 自 执行 count 并 把 结果 返回 给 mongos，mongos 再 把 结果 系 加 起 来 最 后 返 
辐 给 用 户 。 如 果 有 一 个 迁移 正在 进行 ， 许 多 文档 就 会 同时 存在 (进而 被 纳入 计数 ) 
于 多 个 分 片上 。 


当 MongoDB 迁移 数据 块 时 ， 首 先 将 块 从 一 个 分 片 复 制 到 另 一 个 分 片 。 期 间 所 有 对 
该 据 的 读 写 操作 仍然 会 被 路 由 到 原 分 片 , 不 过 块 会 在 另 一 边 的 分 片上 被 逐渐 填充 。 
一 旦 数据 块 “ 移 动 ”完成 ， 它 实际 上 存在 于 两 个 分 片 。 最 后 一 步 ，MongoDB 才 会 
更 新 配置 服务 器 并 删除 原来 分 片上 的 数据 副本 ( 见 图 4-1)。 


因此 ， 当 这 部 分 数据 被 计数 时 ， 实 际 上 被 算 了 两 次 。 将 来 MongoDB 也 许 会 解决 这 
个 问题 ， 但 现在 请 记 住 计 数值 可 能 会 大 于 实际 的 文档 数 。 
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图 4-1: 通过 复制 将 一 个 块 迁 称 到 新 的 分 片上 ， 然 后 再 从 源 分 片上 将 它 删 除 


4.2.2 ”唯一 索引 
假设 我 们 在 email 字段 上 进行 分 片 ， 同时 还 想 在 username 字段 上 加 一 个 唯一 索 
引 ， 这 在 集群 中 是 不 可 能 强制 实施 的 。 


比方 说 我 们 有 两 个 应 用 程序 服务 器 负责 处 理 用 户 信息 ， 其 中 一 个 添加 了 包含 如 下 字 
段 的 新 用 户 文档 : 





{ 
" id" : ObjectIid{(t"4d2a2e9f74delSsb8306fe7d0"),， 
"username" : "andrew", 
"email" : "awesome .guy@example .com" 

} 


要 检查 “andrew” 是 否 为 集群 中 唯一 的 “andrew”， 需 要 遍历 每 一 台 服 务 器 上 每 
个 文档 的 username 字段 。 假 设 MongoDB 遍历 了 所 有 分 片 发 现 没 有 其 他 人 再 叫 
“andrew ， 正 当 它 要 把 文档 写 人 分 片 3 时， 第 二 个 应 用 程序 服务 器 发 来 了 下 面 这 个 
要 被 插入 的 文档 ， 

| 


"”_iaQ" ; ObjectIid("4d2a2f7c56d1lbb09196fe790"), 
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USEername" : "andrew", 
nemall® :; Mco0l .guy@example .com' 


| 
又 一 次 ， 每 个 分 片 都 要 检查 确认 目 己 没有 名 为 andrew 的 用 户 。 当 然 还 不 会 有 ， 
因为 第 一 份 文 档 还 没有 被 写 和 信 ， 这 样 分 厂 1 继续 并 写 人 了 这 个 文档 。 接 着 分 片 3 终 
于 有 空 完成 第 一 份 文档 的 写 和 信 。 现 在 就 出 现 两 个 用 户 名 相同 的 人 了 | 


遂 第 情况 下 ， 要 人 确保 分 片 则 不 存在 重复 ， 唯 一 的 方法 是 在 每 次 要 执行 写 操作 时 锁 住 
整个 集群 ， 直 至 写 操 作 确 认 成 功 。 这 样 做 系统 很 难 实现 高 性 能 写 。 


因此 ， 除 片 键 以 外 任何 键 都 难以 保证 唯一 性 。 可 以 保证 片 键 的 唯一 性 是 因为 特定 文 
档 只 能 属于 一 个 数据 块 ， 所 以 它 只 需要 在 那个 分 片上 唯一 ， 就 能 保证 在 整个 集群 
中 十 唯一 的 。 你 也 可 以 有 一 个 以 片 键 开头 的 唯一 索引 。 举 个 例子 ， 如 果 我 们 在 用 
户 集合 上 按 username 分 片 ， 和 上 面 一 样 ， 但 是 包含 唯一 性 选项 ， 那 么 就 可 以 在 
{username : 1, email : 1} 上 创建 一 个 唯一 索引 。 


由 此 推出 一 个 有 趣 的 结论 : 除非 在 _ia 上 分 片 ， 否 则 能 够 创建 出 不 唯一 的 ia 值 。 
尽管 不 推荐 这 么 做 (而 且 还 会 在 移动 块 时 带 来 麻烦 )， 但 却 是 可 能 的 。 


4.2.3 更 新 

更 新 操作 默认 只 针对 单个 记录 。 这 意味 着 它们 和 唯一 索引 面临 同样 的 麻烦 ， 即 没有 
什么 好 办 法 能 确保 操作 在 多 个 分 片 间 只 发 生 一 次 。 因 此 如 果 要 更 新 单个 文档 ， 一 定 
要 在 条 件 中 使 用 片 键 (upaate 的 第 一 个 参数 )。 如 果 不 这 么 做 ， 你 会 得 到 一 个 
错误 。 


> db.adminCommand ({shardCcollection : "teSst.XxXn，Keyv : {"y" : ] 1}}) 

{ "shardedcollectionn : "test.x", "ok" : 1 } 

2 

> /YA 可 以 运行 

> db.x.update({y : 1}, {$set : {fz : 2}}, true) 

2 

> // 出 错 

> db.x.update({z : 2}, {$set : {w : 4}}) 

can't do non-multi update with query that doesn'it have the ghard Key 


批量 更 新 中 可 以 使 用 任何 条 件 。 


> db.x.update({z : 2}, {$set : {w : 4}}, false, true) 
> // 没有 错误 


如 朱 碰 到 了 奇怪 的 错误 信息 ， 考 虑 一 下 执行 的 操作 是 否 对 整个 集群 必须 是 原子 化 的 。 
这 类 操作 是 不 被 允许 的 。 


人 一 ee 一 ee Si ee 
Cs Eee ee Te re 
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4.3 MapReduce 


在 集群 上 运行 MapReduce 时 ， 每 个 分 片 都 会 执行 它 自己 的 映射 (map) 及 收敛 
(reduce)。mongos 选 出 一 个 “领头 羊 ”分 片 以 接受 来 自 其 他 分 片 的 收敛 结果 并 在 此 
完成 最 后 的 收敛 。 一 旦 数据 被 收敛 到 最 终 形态 ， 就 会 按照 指定 的 方式 输出 。 


由 于 分 片 将 任务 分 解 到 多 人 台 机 器 ， 因 此 能 比 单 台 服务 器 更 快 地 执行 MapReduce。 尽 
管 如 此 ， 它 仍 不 适合 做 实时 运算 。 


临时 集合 

1.6 上 氮 里 ， 际 非 声 明了 “out” 博 数 ， 否 则 MapReduce 会 创建 临时 集合 。 这 些 临 时 集 
合 会 一 二 存在 直至 创建 它们 的 连接 关闭 。 在 单 台 服 务 器 上 这 种 工作 方式 运行 得 很 好 ， 
但 十 mongos 会 维护 自己 的 连接 字 而 且 从 不 关闭 对 分 片 的 连接 。 因 此 ， 临 时 集合 永 
远 虱 不 会 被 清除 掉 (因为 创建 它们 的 连接 从 未 被 关闭 )， 并 且 它 们 会 一 直 存在 ， 数 量 
越 来 越 多 。 


如 条 你 正在 运行 1.6 版 本 同时 还 使 用 了 MapReduce， 就 必须 手动 清理 所 有 临时 集合 。 
在 指定 数据 库 中 ， 你 可 以 通过 执行 下 面 的 函数 来 删除 所 有 临时 集合 : 
var dropTempCollections = function(dbName) { 


var target = db.getSsisterDB (dbName); 
var names = target .getCollectionNames(}).; 


for (var i = 0; i < names.length; i++}) 1 
if (names [i .match(/tmp\ mr .yy)) 
target [names [i]] .drop{()},; 

} 


| 
| 


后 续 版 本 中 ，MapReduce 会 强制 要 求 你 对 输出 进行 处 理 。 详 情 请 查看 文档 。， 


译注 1]: 1.7.4 及 以 后 版 本 中 ，oeut 不 再 是 可 选 参数 ， 其 中 各 种 可 用 的 参数 形式 及 其 含义 具体 见 http:Jwww. 
mongodb. org/display/DOCS/MapReduce. 
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上 一 章 主要 从 应 用 程序 开发 者 和 角度 来 介绍 使 用 MongoDB 的 有 关内 容 ， 而 本 章 将 更 
多 地 从 运 维 方面 介绍 有 关 集 群 管理 的 内 容 。 和 集群 启动 并 运行 起 来 之 后 ， 如 何 了 解 其 
运行 情况 呢 ? 


5.1 使 用 


对 单个 MongoDB 实例 来 说 ， 对 集群 的 大 部 分 管理 工作 都 可 以 通过 mongo shell 来 
完成 。 





5.1.1 了 解 概况 
db.printShardingSsStatus () 可 以 给 出 一 份 执 行 概况 。 它 能 收集 所 有 与 集群 有 关 
的 重要 信息 并 漂亮 地 展示 出 来 。 


> db.,.printshardingstatus() 

--- Sharding Status --- 

sharding version: { " id" : 1, "version" : 3 | 

shards: 

{ "id" : "shardo000", "host" : "ubuntu:27017" } 

{ "jian ; "shard000i", "host" : "ubuntu:27018" } 

databases: 

{ "id" : "admin", "partitioned" : false, "primary" : "config" } 

{ " id" : "test", "partiticoned" : true, "primry" : "shard0000" | 

test .foo churks: 

shard0O001 15 

shard0000 16 

{ "iid" :; { SminKey :1 1 -->>{"id" :0} on : shardl { tt : 2, "i" :0) 

由 id" : 0} -->> { " id" : 15074 } on : shardl { "t" ; 3, "i" : 0 } 

| " ;15074 } -->> { * id"” : 30282 } on : shard]l { "t" : 4, "i" : 0 } 

" ; 30282 } -->> { " id" : 44946 } on : shardl { "t" : 5, "i" : 0 | 
| 0 } 
| 0 | 


| 


ey i 
eb 
记 全 名 


" : 44946 } -->> { " id" : 59467 } on : shardl { "tr : 7, "i" : 
"id" : 59467 } -->> { " id" : 73838 } on : shardl { "t" : 8, "i" : 
… 这 里 省 略 了 几 行 : 

[ " id" : 412949 ) -->> { " id" : 426349 | on : shardl ( "t" : 6 4 1 
{ " id" : 426349 } -->> { " id" ; 457636 } on : shardl { "t" : 7 2 ] 
{ "ia : 457636 } -->> 4 " id" ; 471683 } on : Ee [WE | 
| hardl 1 7 | 
| 7 


风 


nid" ; 471683 } -->> { " id" : 486547 } cn : 


1 id" : 486547 } -->> { * id" :| Smaxkey : 1 ) } on : shardl { "t" : 7, "i" :; 71 


db.printshardingstatus () Wo 每 
个 分 片 集合 一 个 条 目 (这 儿 只 有 一 个 分 片 集合 test.foo)。 示 出 数据 块 的 分 布 
情况 (snard0001 上 15 个 块 , 而 shard0000 上 16 个 块 )。 然后 是 每 个 块 的 详细 信 
息 ， 包 括 它 的 区 间 (比如 { " ig" : 115882 ) -->> { "id : 130403 } 对 
应 id 在 区 间 [115882, 130403) 里 的 文档 ) 和 它 所 在 的 分 片 。 它 还 会 给 出 块 的 主 次 
版 本 号 ， 这 个 不 需要 关心 。 
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创建 的 每 个 数据 库 都 有 一 个 主 分 片 作为 “大 本 营 ”"。 在 这 个 例子 里 ，tesit 数据 库 的 主 
分 片 被 随机 设 定 为 shard0000。 这 并 不 意味 任何 东西 一 一 shard0001 最 后 比 shard0000 
的 数据 块 还 多 ! 这 个 字段 应 该 永远 与 你 无 关 ， 所 以 可 以 忽略 它 。 如 果 删 除 掉 某 个 数 
据 库 的 主 分 请， 则 其 主 分 请 会 被 目 动 地 移动 到 集群 中 另 一 个 分 片上 。 


集合 很 大 的 话 ， dbp.printshardingSstatus() 的 输出 融会 特别 长 ， 因为 要 列 出 每 
个 分 片上 的 每 个 块 。 如 果 集 群 非常 天， 通过 深入 研究 能 够 得 到 更 多 谁 确 的 信息 ， 但 
是 如 果 你 刚 上 过 ， 那么 这 个 至 腕 的 概览 正 合适 。 


5.1.2 配置 集合 

mongos 会 将 请 求 分 发 到 适当 的 分 片上 ， 除 非 查 询 的 是 config 数据 库 。 访 问 config 
数据 库 会 直接 转 到 配置 服务 器 上 去 ， 而 那 正 是 能 找到 所 有 集群 配置 信息 的 地 方 。 如 
果 你 的 集合 由 几 百 或 几 千 个 数据 块 组 成 ， 那 束 值 得 了 解 一 下 config 数据 库 的 和 内容， 
以 便 能 够 查询 特定 信息 ， 而 非 获得 整个 集群 的 概况 。 


让 我 们 看 看 config 数据 库 。 假 设 你 有 一 个 集群 ， 应 该 能 看 见 以 下 集合 : 


> USE config 
switched to db config 
> Show collections 
changelog 

chunks 

collections 
databases 
lockpings 

locks 

MoONgos 

sett1ings 

shardg 
System.1indexes 
Version 


其 中 很 多 都 对 应 集群 config.mongos (所 有 mongos 进程 的 列表 ， 包 括 过 去 和 现在 的 ) 
的 组 成 部 分 。 

> db .mongos .fingd |) 

{ -ia : "ubuntu:10000", "ping" : ISODate{"2011-01-08T10:11:23"}, "up" : 0 } 

{ " id" : "ubuntu:10000", "ping" :; ISODate{"2011-01-08T10:11:23"), "up" : 20 } 

[nm “ubuntu:10000", "ping" : ISODate{"2011-01-08T10:11:23"}), "up" : 1 } 
id 是 mongos 的 主机 名 。ping 是 配置 服务 占 最 后 一 次 ping 它 的 时 间 。up 古 它 认 
为 mongos 是 否 在 线 。 如 果 启 动 了 一 个 mongos， 即 使 只 是 几 秒 钟 ， 它 都 会 被 添加 到 
这 个 到 表 中 且 不 会 消失 。 这 并 不 重要 ， 因 为 你 不 太 可 能 会 启动 数 百 万 个 mongos 服 
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务 器 ， 不 过 还 是 需要 提醒 一 下 ， 这 样 看 到 列表 时 才 不 会 感到 困惑 。 


config.shards 一 一 集群 中 的 所 有 分 片 。 

config.databases 一 一 集群 中 的 所 有 数据 库 (包括 分 片 版 和 未 分 片 版 )。 
config.collections 一 一 所 有 分 片 集合 。 

集群 中 的 所 有 数据 块 。 

config.settings 包含 (理论 上 ) 与 数据 库 版 本 相关 的 可 调 设 置 。 上 自前，config.settings 
多 许 调整 块 大 小 (但 是 别 这 么 做 ! ) 和 关闭 平衡 天， 通常 情况 下 都 不 需要 这 么 做 ，。 
可 以 通过 执行 一 个 更 新 来 修改 这 些 设置 。 比 如 ， 要 关 掉 平衡 右 : 








config.chunks 


> dpb.settings.update{{" id" : "balancer"}, {"s$set" :; {"stopped" : true }}, true) 


如 采 正 处 在 一 轮 平 衡 化 过 程 中 ， 则 直到 完成 为 止 平衡 颖 都 不 会 关闭 。 

剩 下 的 集合 中 唯一 可 能 需要 关注 的 就 是 config.changelog。 它 是 一 个 非常 详尽 的 日 
志 ， 其 中 记录 了 每 一 次 发 生 的 分 割 和 迁移 ， 可 以 用 于 跟踪 使 集群 变 成 当前 配置 状态 
的 步骤 。 不 过 ， 通 弟 它 都 比 需 要 有 的 更 详尽 。 


5.1.3 应 该 连接 什么 
如 果 执 行 的 只 是 正 第 的 读 写 或 管理 操作 ， 答 案 永 远 是 “mongos”。 它 可 以 是 任何 mongos 
( 记 住 它们 是 无 状态 的 )}， 但 永远 是 mongos， 而 不 是 分 片 ， 也 不 是 配置 服务 器 。 


如 案 操 作 并 不 寻 肖 ， 可 能 就 婴 连 接 配 置 服务 如 或 分 片 了 。 也 许 是 为 了 直接 查看 某 个 
分 片 的 数据 或 是 平 动 修改 一 个 被 搞 乱 的 配置 。 比 如 ， 你 从 须 直接 连 到 分 片上 才能 修 
改 副 本 集 的 配置 。 

记 住 配置 服务 器 和 分 片 都 只 是 一 般 的 morsod 而 已 。 你 所 知道 的 任何 在 mongod 上 
执行 的 操作 都 同样 适用 于 配置 服务 器 和 分 片 。 尽 管 如 此 ， 在 正常 的 运 维 过 程 中 ， 应 
读 儿 乎 永远 不 需要 连接 它们 。 所 有 正常 的 操作 都 应 该 通过 mongos 完成 。 


5.2 监控 
当 你 有 一 个 集群 时 ， 监 控 韭 衣 重 要 。 所 有 对 监控 单个 证 点 的 建议 都 适用 于 监控 多 个 
抬 ， 因 此 请 确保 已 读 过 有 关 监 挥 的 文档 。 


注意 ， 当 机 器 数量 变 多 时 ， 网 络 会 变 得 越 来 越 重 要 。 如 有 果 一 台 服 务 大 表示 连 不 上 男 
一 全 上 服务 戎 ， 竖 检查 两 台 服 务 辫 间 了 网 络 的 连通 性 。 


如 果 可 能 ， 请 保留 一 个 已 经 连 上 集群 的 shell。 创 建 一 个 连接 要 求 MongoDB 暂时 给 
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连接 一 个 锁 ， 这 在 调试 时 可 能 是 个 问题 。 假 设 一 台 服 务 器 出 状况 了 ， 因 此 你 启动 一 
个 shell 去 连 它 。 非 常 遗 憾 的 是 ，momngod 正好 卡 在 写 锁 上 ， 因 此 shell 会 一 直 堂 试 获 
取 饥 ， 进 而 永和 还 也 不 能 完成 连接 。 所 以 为 了 安全 起 见 ， 留 下 一 个 打开 的 shell。 


5.2.1 mongostat 


mongostat 是 可 用 监控 工具 中 最 全 面 的 。 它 能 返回 大 量 与 服务 器 运行 有 关 的 信息 ， 包 
插 负 载 、 页 条 必 及 打开 的 连接 数 。 


如 果 有 一 个 集群 ， 你 可 以 为 每 侣 服务 旨 单 独 局 动 一 个 mongostat， 也 可 以 在 某 个 mongos 
上 运行 mongostat --discover 并 让 它 来 分 析出 集群 的 所 有 成 员 并 显示 其 状态 。 


举 个 例子 ， 如 果 我 们 使 用 第 4 章 描 述 的 simple-setup.py 脚本 启动 了 一 个 集群 ， 它 能 
找 出 所 有 的 mongos 进程 和 分 片 : 


$ mngostat --discover 


mpped vaize res faults locked%s jdx miss com time repl 
localhost :27017 Om 105m 3m 0 0 0 2 22:59:50 RIR 
localhost :30001 80m 175m Sm D 0 0 3 22:59:50 
localhost :30002 Om 9o5m Crm 0 0 0 3 22:59:50 
localhost :30003 Om 9om I 0 0 0 3 22:59:50 
localhost :27017 Om 105m 3m 0 0 0 2 :59;51 RIR 
localnost ;30001 BUm 175m sm 0 0 0 3 22:59:5]1 
l1ocalhost :30002 Um 号 Si Di 0 0 0 3 22:59;51 
localhost : 30003 Wm 9 om Sm 0 0 b 4 22:59:5] 


我 侧 化 了 输出 并 删除 了 一 些 列 ， 因 为 每 行 只 能 放下 80 个 字符 ， 而 mongostat 一 行 有 
足 足 166 个 字符 宽 。 另 外 空 行 看 上 去 也 有 点 奇怪 ， 因 为 这 个 工具 以 “正常 ”momngostat 
空 行 开始 ， 列 出 集群 的 剩余 部 分 ， 还 要 再 添加 两 个 字段 grl gw 和 arlaw。 这 些 字 
段 分 别 显示 了 有 多 少 连接 在 读 和 写 操 作 上 排队 等 竺 以 及 有 多 少 处 于 活动 状态 的 读 写 
操作 。 


5.2.2 Web 管理 界面 

如 果 使 用 副本 集 ， 请 确保 使 用 --rest 选项 启动 它们 。 副 本 集 的 Web 管理 界面 
(http:Alocalhost:28017/_replSet， 如 盯 mongod 是 在 疹 口 27017 上 运行 的 ) 可 以 给 出 
大 量 的 相关 信息 。 
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5.3 备份 


在 运行 的 集群 上 做 备份 其 实 是 非常 有 难度 的 。 数 据 不 停 地 被 应 用 程序 添加 和 删除 ， 
同时 又 蛙 例 被 平衡 壹 挪 来 挪 去 。 丰 今天 转 储 一 个 分 片 明天 再 恢复 ， 就 有 可 能 有 某 些 
文档 同时 出 现在 两 处 或 者 彻 感 丢 失 ( 见 图 5-1) 的 情况 。 











5-1: 迁移 前 做 了 备份 。 如 果 迁 移 后 分 片 崩溃 并 从 备份 中 恢复 ， 则 集群 会 失去 被 迁移 的 块 


创建 备份 的 问题 在 于 通常 你 只 想 要 恢复 集群 的 一 部 分 (你 不 会 想 从 昨天 的 备份 中 以 
复 整个 集群 ， 而 只 是 想 恢复 停机 的 那个 节点 )。 如 果 要 从 备份 中 恢复 ， 必 须 小 心 谨 
便 。 上 首先 碍 看 一 下 配置 服务 器 ， 明 确 哪 些 数据 块 应 该 在 要 被 恢复 的 分 片上 ， 然 后 只 
从 备份 中 恢复 这 些 块 的 数据 (还 有 mongorestore)。 
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如 果 想 要 整个 集群 的 一 个 快照 ， 那 就 必须 关闭 平衡 器 ，fsync 并 锁 住 集群 中 的 所 有 从 
机 ， 转 储 ， 然 后 对 其 解锁 并 重启 平衡 器 。 通 常人 们 只 是 从 个 别 分 厂 上 提取 备份 。 


5.4 关于 架构 的 建议 
你 可 以 创建 一 个 分 片 集 群 然 后 不 再 动 它 ， 但 常规 维护 怎么 做 ? 为 了 让 集群 更 容易 管 
理 ， 可 以 在 架构 上 多 化 些 心 站 ,。 


5.4.1 创建 应 急 站 点 

名 字 瞳 示 了 正在 运行 的 是 一 个 Web 站 点 ， 不 过 这 一 方法 对 和 多数 类 型 的 应 用 程序 都 适 
用 。 如 果 需 要 让 应 用 偶尔 下 线 (比如 进行 系统 维护 、 更 改 ， 或 者 处 于 紧急 情况 时 )， 
有 个 可 以 切换 过 去 的 应 急 站 点 就 显得 非常 便利 了 。 


应 急 站 所 完全 不 应 使 用 目 己 的 数据 库 集群 。 如 果 要 使 用 某 个 数据 库 ， 则 此 数据 库 应 
当 与 主 数据 库 完 全 断 开 连接 。 你 也 可 以 让 它 通过 缓存 提供 数据 ， 要 不 就 把 整个 应 
总站 点 做 成 静态 的 ， 这 取决 于 应 用 程序 。 不 管 怎 样 做 一 点 东西 给 用 户 看 总 比 显 示 
Apache 的 错误 页 面 好 。 


5.4.2 ” 挖 护 城 河 
有 一 个 好 办 法 能 阻止 或 最 小 化 各 类 问题 ， 那 就 是 在 集群 服务 器 周围 挖 出 一 条 “虚拟 
护城河 "， 然 后 通过 队列 控制 对 集群 的 访问 。 


队列 可 以 让 应 用 程序 在 计划 的 中 断 运 行 时 继续 处 理 写 信 ， 或 者 至 少 避 免 在 中 断 运行 
开始 前 丢失 那些 尚未 完成 的 写 入 。 你 可 以 将 它们 保存 在 队列 中 直到 MongoDB 再 次 


启动 为 止 ， 然 后 再 把 它们 发 送 给 mongos。 


队列 不 仅 在 容 突 中 非常 有 用 ， 而 且 在 常规 的 罕 发 流量 下 也 非常 有 用 。 队 列 可 以 吸收 
短 时 间 内 爆发 的 大 量 请 求 并 释放 出 一 个 和 组 稳定 的 请 求 流 ， 而 不 是 让 突 发 的 请 求 洪 
江汉 没 集 和 烙 。 你 也 可 以 把 队列 反 过 来 用 ， 即 缓存 MongoDB 返回 的 结果 。 

有 很 多 不 同 的 队列 可 供 使 用 ， 包 括 Amazon SQS、RabbitMQ ， 甚 至 是 一 个 MongoDB 
集合 (当然 一 定 得 把 它 和 被 保护 的 集群 分 开 来 )， 随 便 哪 种 只 要 用 起 来 舒坦 就 行 。 
不 过 ， 共 列 也 不 古 对 所 有 类 型 的 应 用 都 有 效 ， 比 如 对 需要 实时 数据 的 应 用 就 没什么 


各 助 。 尽 管 如 此 ， 如 果 应 用 程序 可 以 忍受 微小 的 延迟 ， 队 列 能 够 在 外 部 世界 和 数据 
库 之 间架 起 一 座 非 常 有 价值 的 桥梁 。 
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5.5 销 误 处 理 

正如 第 1 章 提 到 的 ， 网 络 分 区 (network partition)、 服 务 器 月 注 以 及 其 他 问题 能 够 
引发 各 式 各 样 的 麻烦 。 很 多 情况 下 MongoDB 可 以 (至 少 暂 时 ) 从 这 类 麻烦 中 “ 自 
愈 ”。 这 一 节 会 介绍 过 到 哪些 问题 可 以 不 用 处 理 尽管 放心 大 睡 ， 而 对 哪些 问题 却 不 能 
置之不理 ， 同 时 介绍 如 何 让 应 用 程序 崔 备 好 应 对 各 种 运行 中 断 。 


5.5.1 分 片 停机 
如 霖 一 整个 分 片 都 停机 了 ， 则 所 有 应 该 命中 该 分 片 的 读 写 都 会 返回 错误 。 应 用 程序 
应 该 处 理 这 种 错误 〈 无 论 使 用 何 种 编程 语言 ， 这 都 如 同 在 遍历 游标 时 抛 出 的 异常 )。 
举例 来 说 ， 如 果 一 个 查询 的 头 3 个 结果 在 运行 正常 的 分 片上 ， 而 包含 有 用 数据 块 的 
第 四 个 分 片 却 停 机 了 ， 你 会 得 到 这 样 的 输出 : 

> db.foo.findi() 

{ "GT : 1 } 

{ " _ id" : 2 |} 

{ GE © 3 } 

error: moOngos connectionpool: z 

connect failed ny-01:10000 : couldn t connect to server ny-01:10000 
对 这 种 错误 要 有 所 准备 ， 以 便 出 现 问 题 时 尽 可 能 让 应 用 平滑 地 运行 下 去 。 就 有 些 程 
友和 而 言 ， 也 可 以 有 和 针对 性 地 继续 查询 直至 分 片 重新 上 线 为 止 。 


未 来 MongoDB 会 增加 对 部 分 查询 结果 的 支持 (post-1.8.0)， 这 样 就 可 以 只 从 正常 运 
行 中 的 分 片 返回 结果 而 不 指出 发 生 的 任何 异常 。 


5.5.2 ”多数 分 片 停 机 

如 果 用 副本 和 集 做 分 片 ， 则 理想 情况 下 整个 分 片 不 会 全 停 掉 ， 而 仅仅 是 其 中 的 一 两 台 
服务 器 。 如 果 副 本 集 失 去 了 多 数 成 员 ， 则 没有 服务 器 能 成 为 主机 (除非 重新 进行 人 
工 调整 )， 集 合 就 会 变 成 只 读 状 态 。 一旦 它 变 为 只 读 状 态 ， 就 要 确保 应 用 程序 仅 发 
送 给 它 带 有 slaveOkay 选项 的 读 请 求 。 


如 东 使 用 了 副本 集 ， 则 理想 情况 下 单个 服务 器 (甚至 是 一 些 服务 器 ) 出 错 完 全 不 会 影响 
到 应 用 程序 。 集 合 中 剩余 的 服务 器 会 承担 起 负载 ， 而 应 用 甚至 不 会 注意 到 发 生 的 变化 。 


在 1.6 版 中 ， 如 果 一 个 副本 集 配 置 发 生变 化 ,日 志 里 会 出 现 大 量 重复 消息 。 

因为 mongos 和 分 片 间 的 每 一 条 连接 都 在 注意 到 副本 集 连 接 已 过 期 时 执行 

更 新 ， 而 它 更 新 时 就 会 打印 一 条 消息 。 尽 管 如 此 ， 这 应 该 不 会 对 运行 造成 

彩 啊 ， 而 只 是 有 些 曼 嗪 吵 侦 而 已 。 在 1.8 版 本 中 这 个 问题 已 经 被 修复 了 ， 

那 之 后 在 更 新 副本 集 配 置 的 事情 上 ，mongos 变 得 聪明 多 了 。 

译注 1: 2.0 版 本 已 发 生变 化 ， 评 情 见 http://www.mongodb.org/display/DOCS/2.0+Release+Notes#2.0Release- 
NotesReconftigurationwithaminorityup。 
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5.5.3 ”配置 服务 器 停机 

一 台 配 置 服 务 器 停机 并 不 会 立即 对 集群 的 性 能 产生 影响 ， 但 古 却 会 导致 无 法 和 修改 任 
何 配置 。 所 有 配置 服务 器 必须 协同 工作 ， 因 此 只 要 是 一 个 兄弟 倒 下 了 ， 剩 下 的 配置 
服务 器 都 不 再 元 许 任何 修改 。 要 注意 的 是 ， 配 置 服务 器 停机 时 不 能 修改 任何 配置 ， 
比如 不 能 添加 mongos 服务 大 ， 也 不 能 迁移 数据 ， 也 不 能 添 删 数据 库 或 集合 ， 当 然 
也 不 能 修改 副本 集 的 配置 。 


如 果 一 侣 配置 服务 器 参 证 了 ， 务 必要 让 它 重 局 以 便 能 在 需要 的 时 候 修改 配置 ， 但 它 
应 该 完全 不 会 影响 到 集群 当时 的 操作 。 请 确保 监控 了 配置 服务 器 ， 并 且 如 果 一 台 坏 
挥 了 ， 就 让 它 尽快 恢复 ，。 


数据 迁移 期 则 配置 服务 器 坏 掉 是 会 给 服务 器 带 来 一 些 压力 的 。 迁 移 的 最 后 几 步 之 一 
就 是 更 新 配置 服务 器 。 因 为 只 要 一 个 服务 器 停机 了 就 全 部 无 法 更 新 ， 所 以 分 片 不 得 
不 回 进 迁移 并 删除 六 辛 音 亩 复制 完 的 所 有 数据 。 如 果 分 片 没有 过 载 ， 那 么 不 至 于 太 
臣 剧 ， 可 惜 有 点 浪费 。 


5.5.4 mongos 进 程 死 掉 

由 于 你 总 是 可 以 有 很 多 monsgos 进程 ， 而 且 它 们 没有 状态 ， 所 以 如 果 其 中 一 个 坏 掉 
了 也 不 是 什么 大 事 。 推 荐 在 每 个 应 用 程序 服务 器 上 跑 一 个 mongos 并 且 让 每 个 应 用 
程序 服务 右 和 它 本 地 的 monsgos 通信 ( 见 图 5-2)。 这 样 的 话 ， 如 果 整 个 机 器 信和 掉 ， 
也 不 会 有 人 尝试 与 一 个 不 存在 的 monsgos 进程 对 话 。 





应 用 程序 服务 器 ， 


5-2: 运行 了 mongos 的 应 用 程序 服务 器 
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预备 一 些 元 余 的 mongos 服务 器 ， 这 样 如 果 一 个 mongos 进程 坏 掉 而 应 用 程序 服务 器 
还 正常 ， 就 可 以 将 故障 转移 到 其 他 mongos 上 。 大 部 分 并 动 多 许 卢 明 一 组 可 连接 的 
服务 器 并 会 按 顺 序 尝 试 过 接 。 因 此 你 可 以 把 首选 的 mongos 放 在 前 面 ， 后 面 跟着 备 
用 的 mongos。 如 果 一 个 坏 近 了， 应 用 程序 可 以 处 理 异 常 (用 你 使 用 的 任何 语言 )， 
然后 驱动 会 自动 为 下 一 个 请 求 切 换 后 备 服 务 器 。 


由 于 mongos 无 状态 且 不 保存 数据 ， 如 果 机 器 是 好 的 ， 你 也 可 以 只 是 尝试 重启 月 济 
掉 的 mongos。 


5.5.5 ”其 他 注意 事项 

以 上 各 点 在 处 理 时 都 应 该 与 其 他 任何 可 能 出 问题 的 地 方 隔离 开 来 。 有 时 ， 由 于 网 络 
分 区 你 有 可 能 会 失去 全 部 分 片 ， 或 一 部 分 其 他 分 片 或 配置 服务 器 或 者 mongos 进程 。 
建议 你 从 面向 用 尸 (用 户 还 能 做 什么 ? ) 和 程序 设计 (应 用 程序 还 能 切合 实际 地 做 
什么 ? ) 两 个 角度 审慎 考虑 如 何 应 对 各 种 场景 。 

最 后 ，MongoDB 在 显露 功能 形 失 症状 前 会 尽力 承受 各 种 错误 。 当 然 ， 如 果 遇 上 了 完 
美 风 暴 (一 定 会 )， 难 免 会 失去 功能 ， 但 是 平日 里 的 服务 器 崩溃 ， 电 力 短缺 以 及 网 络 
分 区 不 应 该 造成 太 大 的 问题 。 敬 请 死 盯 监 控 保 持 镇 定 ， 呵 护 好 你 的 集群 。 
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欢迎 点 击 这 里 的 链接 进入 精彩 的 Linux 公 社 网 站 
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如 果 你 按照 前 面 各 章 给 出 的 意见 做 了 ， 那 么 就 应 该 能 够 顺利 地 构建 一 个 高 效 且 可 预 
而 的 分 布 式 系统 ， 还 能 按 需 增 长 。 如 果 你 还 有 器 题 和 其 他 困惑 ， 请 发 电子 邮件 给 我 ， 
我 的 邮箱 是 kristina@10gen.com。 


如 果 你 有 兴趣 进一步 学 习 分 片 ， 这 里 有 些 可 用 的 资源 。 


MongoDB 的 wiki 有 很 大 篇 幅 介 绍 了 分 片 的 内 容 ， 包 括 了 从 配置 示例 到 内 部 机 制 的 
详细 内 容 。 

MongoDB 用 户 列 表 是 一 个 提问 的 好 地 方 。 

在 mongo-snippets 源码 库 里 有 很 多 有 用 的 代码 片段 。 

Boxed Ice 在 生产 环境 中 部 署 了 一 个 MongoDB 集群 并 且 经 常 在 博客 上 写 一 些 与 运 
行 MongoDB 相关 的 实用 文章 。 

如 来 你 有 兴趣 阅读 更 多 有 关 分 布 式 计算 的 理论 ， 我 强烈 推荐 Leslie Lamport 关于 
Paxos 算法 论文 ， 读 论文 非常 有 趣 且 有 启发 性 ， 


为 外， 如果 你 喜欢 这 本 书 ， 建 议 你 阅读 我 的 博客 ， 其 中 主要 是 一 些 关 于 MongoDB 
的 高 级 话题 。 
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MongoDB 上 手 很 容易 ， 但 是 一 旦 用 它 来 构建 应 用 ， 一 些 环 手 的 问题 便 会 接 量 而 来 。 
究竟 该 怎样 设计 数据 架构 ? 拆 分 成 两 个 文档 还 是 放 在 一 块 儿 ? 性 能 如 何 提高 ?本 书 
正 古 用 来 解答 这 些 问题 的 ，。 


本 书 涵 盖 的 技巧 分 为 若干 主题 ， 

1 音 讲 述 数据 库 设 计 的 方方面面 

第 2 章 讲 的 是 编写 应 用 程序 时 应 该 注意 的 问题 ， 

第 3 章 旨 在 为 应 用 提 球 ， 

第 4 章 讲 述 怎样 做 到 在 不 太 损 失 性 能 的 前 题 下 提高 数据 的 安全 性 ， 主 要 利用 复制 和 





ee 人 





第 5 章 是 配置 和 运 维 的 经 验 剖 


很 多 技 马 涉及 多 章 内 容 ， 尤 其 是 与 性 能 相关 的 。 第 3 章 主 要 针对 索引 进行 讲述 ， 但 
是 性 能 涉及 诸多 方面 ， 不 论 是 数据 设计 、 实 现 ， 还 是 数据 安全 都 会 对 其 有 影响 。 


读者 对 和 象 : 
本 书 适 合 已 经 有 些 MongoDB 基础 知识 的 使 用 者 。 若 是 对 MongoDB 不 了 解 ， 可 以 
看 看 《MongoDB 权威 指南 》 或 者 在 线 文档 (http://www.mongodb.org) 。 


格式 约定 

本 书 使 用 了 如 下 排版 约定 。 
“楷体 

用 于 标记 新 名 词 。 
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“等 宽 字体 

用 于 程序 代码 ， 在 段落 中 用 于 表示 程序 的 组 成 部 分 ， 如 变量 或 函数 名 、 数 据 库 、 数 
据 类 型 、 环 境 变 量 、 语 句 、 关 键 字 。 

* 等 宽 粗 体 

命令 或 是 其 他 应 该 由 用 户 输入 的 内 容 。 

* 等 宽 斜体 

应 该 由 用 中 提供 的 或 根据 上 下 文 确定 的 值 。 








”这 个 图 标 表 示 提 示 、 建 议 或 一 般 性 的 注解 。 


| 
! 





一 这 个 图 标 表示 一 个 警告 或 警示 。 
iv 


使 用 示例 代码 

本 书 用 于 帮助 你 完成 工作 。 通 常 ， 你 可 以 在 程序 或 文档 中 使 用 本 书 提供 的 代码 。 除 
韭 你 在 重新 发 布 我 们 的 大 量 代码 ， 否 则 不 需要 联系 我 们 来 获得 许可 。 比 如 ， 在 程序 
中 使 用 本 书 代 码 的 一 些 片段 是 无 需 我 们 许可 的 。 但 是 出 售 或 再 分 发 O'Reilly 的 图 书 
示例 光盘 如 然 是 需要 授权 的 。 引 用 本 书 或 引用 示例 代码 来 回答 问题 是 不 需要 授权 的 ， 
但 将 本 书 的 大 量 示例 代码 纳入 产品 的 文档 是 需要 授权 的 。 


我 们 乐于 见 到 你 在 使 用 时 声明 引用 信息 ， 但 不 强制 要 求 。 引 用 信息 通常 包括 书 
名 、 作 者 、 出 版 社 和 ISBN， 例 如 “50 Tips and Tricks for MongoDB Developers 
by Kristina Chodorow (O'Reilly). Copyright 2011 Kristina Chodorow, 978-1-449- 
30461-4 。 


如 果 你 认为 对 示例 代码 的 使 用 需要 授权 ， 请 通过 这 个 邮箱 联系 我 们 ，permissions@ 


orellly.com 。 


Safari” 在 线 图 书 z 
,Safari 在 线 图 书 是 应 需 而 变 的 数字 图 书馆 。 它 能 够 让 你 非常 轻 
Gafarl 松 地 搜索 7500 多 种 技术 性 和 创新 性 参 郑 书 以 及 视频 ， 以 便 快 


Books ontine 。 速 地 找到 需要 的 答案 。 














rs = ac。 i es 
一 下 i 本 
| ee eS 
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订阅 后 你 就 可 以 访问 在 线 图 书馆 内 的 所 有 页 面 和 视频 ， 在 手机 或 其 他 移动 设备 上 陶 
读 ， 在 新 书 上 市 之 前 抢先 疯 读 ， 还 能 够 看 到 疝 在 创作 中 的 书稿 并 加 作者 反馈 意见 。 
复制 粘贴 代码 示例 、 攻 人 收藏 亚 、 下 载 部 分 章节、 标记 关键 点 、 做 笔记 甚至 打印 页 
面 等 有 用 的 功能 可 以 帮 你 市 省 大 量 时 间 ，。 


这 本 书 也 在 其 中 。 售 访问 本 书 的 英文 版 电子 版 ， 或 者 由 O'Reilly 或 其 他 出 版 社 出 版 
的 相关 图 书 ， 请 到 http://my.safaribooksonline.com 免费 注册 。 


我 们 的 联系 方式 
请 把 对 本 书 的 评论 和 问题 发 给 出 版 社 。 
美国 : 


CO Reilly Media, Inc. 
1005 Gravenstein Highway North 
sebastopol, CA 95472 


中 国 : 
北京 市 西城 区 西直门 南大 街 2 号 成 锦 大 厦 C 座 807 室 (100035) 
奥 菜 利 技术 咨询 (北京 ) 有 限 公司 


O Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘误 
表 、 示 例 代 码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 


http://oreilly.com/catalog/9781449304614 
中 文书 : 
http://www.oreilly.com.cn/index.php?func=book&isbn=9787115272119 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮 件 到 ，; 
bookquestions @oreilly.com 
关于 本 书 的 更 多 信息 、 会 议 、 资 源 中 心 和 网 络 ， 请 访问 以 下 网 站 ， 


http://www.oreilly.com 


http://Wwww.oreilly.com.cn 
我 们 在 Facebook 的 地 址 如 下 : 


http://facebook.com/oreilly 


vv EE 
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请 基 注 我 们 的 Twitter 动态 : 
http://twitter.com/oreillymedia 
我 们 的 YouTube 视频 地 址 如 下 : 


http://www.youtube.com/oreillymedia 


Dl 
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1.1 技巧 1: 速度 和 完整 性 的 折 中 


在 多 个 文档 中 使 用 的 数据 既 可 以 采用 内 和 嵌 〈 反 范式 化 ) 的 方式 ， 也 可 以 采用 引用 
(范式 化 ) 的 方式 。 两 种 策略 并 没有 优 劣 之 分 ， 各 自 都 有 优 缺 点 ， 关 键 是 要 选择 适合 
自己 的 应 用 场景 的 方案 。 

反 范式 化 会 产生 不 一 致 的 数据 。 举 例 说 明 ， 假 设 要 将 图 1-1 中 的 华 果 改 成 梨 。 假 如 
仅仅 更 新 了 一 个 文档 的 值 ， 应 用 就 崩溃 了 ， 而 你 还 没 来 得 及 更 新 其 他 文档 ， 这 时 数 
据 库 中 fruit 就 有 两 个 不 同 的 值 。 





dt | 
fruit :WB) 《fruit :wb i 


1-1: 反光 式 化 的 设计 。fruit 的 值 同时 存储 在 food 和 meals 集合 里 


不 一 致 可 不 太 好 ， 但 不 太 好 的 程度 取决 于 到 底 存 了 什么 。 对 于 很 多 应 用 来 说 ， 短 时 
的 不 一 致 还 说 得 过 去 。 如 果 有 人 更 改 了 用 户 名 ， 而 他 原 有 的 博客 文章 在 几 个 小 时 内 
还 显示 他 的 旧 用 户 名 也 没什么 大 不 了 的 。 要 是 不 能 容忍 哪怕 一 丁点 不 一 致 ， 则 应 该 
选用 范式 化 的 设计 。 

但 要 征 做 了 范式 化 ， 应 用 则 必须 在 每 次 确认 水 果 时 做 额外 一 次 查找 (图 1-2)。 若 是 
应 用 无 法 承担 这 样 的 负载 ， 又 不 太 强调 一 致 性 ， 则 应 该 反 范 式 化 。 


meals 


td Sim 
fruit :X (lfruit-x,i 





1-2: 范式 化 的 设计 。fruit 字段 存储 在 food 集合 里 ， 被 meals 集合 中 的 文档 引用 
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这 里 需要 的 是 两 相 权 衡 ， 因 为 极 高 的 性 能 和 上 办 间 一 致 性 不 可 兼 得 。 所 以 必须 要 想 清 
楚 哪个 才 古 应 用 最 需要 的 特性 。 


1.1.1 示例 : 网 上 购物 车 
假设 现在 要 为 购物 车 设计 一 下 数据 结构 。MongoDB 中 要 存放 应 用 的 订单 ， 但 i 订单 
中 该 涵 盐 哪些 信息 呢 ? 


范式 化 的 设计 
商品 : 
| 


1 id" : productId, 
"name"™"™ : Name, 
"price" : Price, 
"degsc" : descript1ion 


订单 : 


" 4d" : orderId, 

usSer" : USerlnfto, 

"items" : | 
productIdi,. 
ProductId2, 
productId3 


| 


每 小 订单 文档 中 存放 商品 的 1id。 这 样 ， 当 需 要 显示 订单 内 容 时 ， pert 
合 获 得 相应 订单 ， 之 后 查询 商品 集合 获得 指定 ia 的 商品 信息 。 这 种 设计 下 ， 一 
得 询 无 法 获取 完整 的 订单 。 


若 有 商品 信息 更 新 了 ， 所 有 引用 此 商品 的 文档 都 会 “更 新 *， 因 为 这 些 文档 只 是 指向 
了 保存 商品 信息 的 文档 。 


范式 化 的 结果 就 是 读 取 速 度 较 慢 ， 但 所 有 订单 的 一 致 性 会 有 保证 。 多 个 文档 会 原子 
性 地 更 新 《因为 仅仅 引用 的 文档 会 更 新 )。 


及 范式 化 设计 
商品 (与 前 面相 同 ) 


jd" 。 Droduct Id, 
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"name" : Name, 
"price* : price, 
"desc" ; description 


iT 单 : 
| 
"id" ; crderId, 
"USer" : USerInfo., 
nitems" : I[ 
{ 
" id" : productIidi, 
"name" ; namel, 
"price" : Dricel 
} ， 
{ 
”an : productId2, 
"name" : Names, 
"price" : price2 
}, 
{ 
" id"” : productId3, 
"name'" : Name3, 
"Price" ; Price3 
} 
] 
| 


庆生 将 商品 信息 作为 内 向 文 档 存在 订单 数据 中 。 这 样 ， 当 显示 订单 的 时 候 只 需 一 次 
查询 。 


如 用 商品 信息 变化 了 ， 需 要 更 新 ， 就 要 改动 所 有 相应 的 订单 。 


反 范 式 化 读 取 速度 较 快 ， 一 致 性 稍 弱 。 商 品 信息 的 变更 不 能 原子 性 地 更 新 到 多 个 
文档 。 


综 上 所 述 ， 你 决定 选 哪 个 了 吗 ? 


1.1.2 考虑 因素 

主要 应 考虑 以 下 几 点 。 

。 是 否 总 是 要 额外 读 取 一 次 几乎 不 怎么 改变 的 数据 ? 可 能 读 了 商品 信息 一 万 次 才 会 修 
改 一 次 它 的 详细 信息 。 为 了 那 一 次 写 入 快 一 点 或 者 保证 一 致 性 ， 搭 上 一 万 次 的 读 取 
衣 耗 值 吗 ? 绝 大 多 数 应 用 都 具有 高 读 写 比 ， 不 妨 测 算 一 下 应 用 的 读 写 比 。 
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你 认为 引用 的 数据 多 入 会 更 新 一 次 ? 更 新 越 少 ， 越 适合 反 范 式 化 。 有 些 极 少 变化 
的 数据 几乎 根本 不 值得 引用 ， 例 如 名 衬 、 生 日 、 股 票 代码 、 地 址 。 


。 一 致 性 很 重要 么 ? 如 果 是 肯定 的 ， 则 应 该 范式 化 。 例 如 ， 多 个 文档 可 能 需要 尺 子 性 
地 更 新 。 如 果 设 计 的 是 一 个 交易 系统 ， 一 些 特 定 的 证 券 必须 在 指定 的 时 间 交 易 ， 我 
们 殊 会 希望 在 它们 不 能 交易 时 瞬时 将 其 全 部 “ 锁 ” 起 来 。 为 此 就 可 以 用 一 个 锁 文档 
来 引用 这 组 证 券 文档 。 但 这 种 操作 最 好 在 应 用 层 处 理 ， 因 为 应 用 需要 知道 何 时 上 锁 
何 时 解锁 。 


另外 ， 当 应 用 中 的 不 一 致 性 难以 被 容忍 时 也 必须 首先 考虑 一 致 性 。 在 订单 的 例子 
中 ， 层 次 比较 严格 : 订单 从 商品 中 获取 信息 ， 但 商品 不 会 从 订单 中 获取 信息 。 偶 
如 有 多 个 “信息 源 ” 文 档 ， 就 比较 难 取舍 了 。 
然而 ， 这 个 (构造 出 来 的 ) 订单 系统 中 ， 一致 性 反而 有 不 利 的 一 面 。 假 设 我 们 希 
望 将 某 个 商品 打 八 折 。 此 时 我 们 不 想 改 变 已 有 的 订单 的 任何 信息 ， 仅 仅 是 想 更 新 
一 下 商品 的 摘 述 。 这 里 我 们 要 的 是 某 一 时 肇 的 数据 快照 (参见 技巧 $)。 

。 要 不 要 快速 的 读 取 ? 在 想 谈 取 尽 可 能 快 ， 则 要 反 范 式 化 。 在 这 个 应 用 中 这 就 无 所 谓 
了 ， 所 以 不 能 算是 著 量 因素 。 实 时 的 应 用 要 尽 可 能 地 反 范 式 化 。 

订单 文档 非常 适合 反 范 式 化 ， 因 为 其 中 的 商品 信息 不 经 常 变化 ， 就 算 变 了 也 不 必 重 

新 到 所 有 订单 。 范 式 化 在 此 就 没什么 优势 可 言 了 。 

所 以 ， 本 例 中 最 佳 选择 是 将 订单 反 范 式 化 。 

迁 伸 部 读 - 

* “Your Coffee Shop Doesn't Use Two-Phase Commit”( 徊 啡 店 不 需要 两 步 担 交 ， 矢 见 
http://www.eaipatterns.com/docs/IEEE_Software_Design 2PC.pdf) 举例 说 明了 现实 世 
界 中 的 系统 怎样 处 理 一 致 性 ， 及 其 与 数据 库 设 计 的 关系 。 


1.2 技巧 2 适应 未 来 的 数据 要 范式 化 
范式 化 可 使 数据 可 用 性 更 长 入 ， 将 来 可 以 在 不 同 的 应 用 中 以 不 同 的 方式 查询 范式 化 
的 数据 。 


这 里 的 前 提 龙 有 些 数据 将 会 年 复 一 年 不 断 地 被 各 种 应 用 用 到 。 的 确 有 这 种 数据 ， 但 
慷 大 多 数 人 的 数据 都 会 不 断 地 演化 ， 陈 旧 的 数据 要 么 被 更 新 ， 要 么 就 被 丢弃 。 绝 大 
多 数 人 都 希望 数据 库 能 尽 可 能 地 对 当前 查询 做 出 快速 响应 ， 如 果 将 来 查询 变 了 ， 他 
们 会 针对 新 的 查询 优化 数据 库 。 
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还 有 ， 应 用 如 果 很 成 功 ， 其 数据 经 贡 会 高 度 定 制 化 。 当 然 ， 这 并 不 是 说 这 些 数据 不 
能 用 在 别处 ， 而 且 你 很 可 能 至 少 想 要 对 数据 做 些 元 分 析 。 但 这 和 “适应 未 来 ”不 同 ， 
“适应 未 来 ”代表 满足 未 来 10 年 内 的 所 有 查询 。 


1.3 ”技巧 3: 尽量 单个 查询 获取 数据 


pi 


本 而 会 诗 及 一 个 术语 一 一 应 用 单元 。 对 于 Web 应 用 或 者 移动 应 用 ， 可 以 
桨 对 后 凯 的 一 次 请 求 视 作 一 个 应 用 单元。 类 似 的 例子 还 有 : 

” 对 于 果 面 应 用 ， 一 次 用 户 变 互 算 作 一 个 应 用 单元 ; 

* 对 于 分 析 系 统 ， 一 个 图 表 的 加 载 算 作 一 个 应 用 单元 。 

应 用 程序 中 这 些 离散 的 应 用 单元 涉及 与 数据 库 的 交互 。 





MongoDB 的 数据 库 设 计 要 从 应 用 单元 的 查询 出 发 。 


1.3.1 示例 : 博客 

大 要 设计 博客 系统 ， 对 一 篇 博客 文章 的 请 求 或 许 就 是 一 个 应 用 单元 。 显 示 一 篇 文章 
村， 需要 显示 内 容 、 标 签 、 作 者 信息 (虽然 可 能 不 是 全 部 个 人 信息 ) 以 及 评论 。 所 
以 ， 这 里 将 这 些 信息 都 能 到 文章 文档 中 ， 以 便 通 过 一 次 查询 就 能 获得 所 有 必要 信息 . 
记 住 是 每 页 一 次 查询 ， 不 是 一 个 文档 一 次 查询 ， 有 时 需要 返回 多 个 文档 ， 或 者 文档 
的 一 部 分 (并非 文 档 的 所 有 内 容 )。 例 如 ， 主 页 上 要 显示 posts 集合 中 最 近 的 10 篇 
文章 ， 但 只 显示 它们 的 标题 、 作 者 和 概要 ， 


> db.posts.find({}, {"title" :， 1, "author" : 1, "slug" ; 1, " dan : 0}} .sort I 
... {"date" : -1}) .limit(10) 


可 以 把 含有 指定 标签 的 最 新 20 篇 文章 输出 到 一 个 页 面 : 


> db.posts.find({l"tag" : someTag}, {"title" ; 1, "author" : 1， 
- "Slug" ; 1, " id" : 0}) .sort (ffnaaten : -1}) .1imit(20) 


还 有 一 个 独立 的 authors 集合 ， 存 放 每 位 作者 的 详细 信息 。 作 者 页 面 非常 简单 ， 仅 
需要 从 authors 集合 中 读 取 一 个 文档 ; 


> db.authors.findone{{"name" : authorName}) 


posts 集合 中 文档 的 一 部 分 信息 可 能 是 作者 文档 中 信息 的 一 个 子 集 (也 许 是 作者 名 
和 头像 )。 


译注 1， 这 就 是 Knuth 所 说 的 过 早 优 化， 


一 





一 Oe 
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注意 应 用 单元 不 一 定 非 要 对 应 单个 文档 ， 上 面 的 一 些 例子 仅仅 算是 巧合 〈 一 篇 文章 
和 一 个 作者 页 面 都 在 单个 文档 中 )。 但 是 ， 还 有 很 多 情况 下 一 个 应 用 单元 要 对 应 多 个 
文档 ， 但 只 通过 里 条 查询 来 完成 这 种 请 求 。 


1.3.2 示例 : 相册 

假设 有 一 个 相册 ， 用 户 可 以 创建 或 者 回复 含有 照片 和 文字 的 帖子 。 有 个 应 用 单元 是 
查看 线索 中 的 20 条 回帖 ， 每 个 大 的 回复 都 是 posts 集合 中 一 个 独立 的 文档 。 要 
示 这 人 小 页 面 时 ， 只 需 这 样 查询 : 





> db.posts.find({"threadId" : Ia}) .sort {{"date" : 1}}.1limit(20) 
这 样 需 要 查询 下 一 页 的 内 容 时 ， 就 查询 紧 接 着 的 20 条 内 容 : 


> db.posts.find({"threadId" : id, "date" : i"sagt" : latestDateSeen||) .sort ( 
. {"date" :; 1}} .limit (20) 


还 可 以 创建 索引 {ithreadId : 1, date : 1} 来 优化 这 种 查询 的 性 
能 。 用 skip(20) 分 页 远 不 及 范围 高 效 ， 所 以 不 予 采 纳 。 参 见 htip:/ 
www.mongodb.org/display/ DOCS/Advanced+OQueries#Adyanced Oueries- 
[{skipYo2 B029) |], 





随 着 应 用 日 浙 复 杂 ， 用 户 和 管理 人 员 不 断 要 求 新 功能 ， 即 使 一 个 应 用 单元 必须 得 多 
次 查询 ， 也 不 必 担 心 。 一 次 查询 ”的 目标 是 个 良好 的 起 点 ， 可 以 很 好 地 衡量 初始 的 
设计 ， 人 也 现实 并 非 完美 世界 。 稍 微 复杂 的 应 用 中 ， 经 常会 有 稀奇 古怪 的 功能 需要 多 
次 查询 。 


1.4 技巧 4: 峰 入 关联 数据 


当 在 伺 入 和 引用 文档 之 间 犹 驳 不 决 时 ， 不 妨 想 想 查 询 的 目的 究竟 是 为 了 获得 字段 本 
身 的 信息 ， 还 是 为 了 进一步 获取 更 广泛 的 信息 。 例 如 按照 某 个 标签 查询 应 该 返回 带 
有 该 标签 的 文章 ， 而 不 仅仅 是 标签 本 身 。 类 似 地 ， 对 于 查询 评论 ， 可 能 已 存在 二 个 
最 新 评论 列表 ， 但 人 们 更 希望 知道 是 哪 篇 文章 引发 了 评论 ， 除 非 你 的 应 用 就 是 以 评 
论 为 核心 的 。 


在 征 从 关系 型 数据 库 迁 移 到 MongoDB ， 联 结 表 就 是 重点 要 考虑 能 人 的 对 象 ， 那些 
仅 有 一 个 键 和 一 个 值 的 表 (如 标签 、 权 限 、 地 址 ) 在 MongoDB 中 几乎 都 应 该 做 左 
人 人 处理。 


还 有 ， 若 是 某 些 信息 只 在 一 个 文档 中 使 用 ， 则 应 该 典 进 这 个 文档 。 
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1.5 技巧 5: 和 瞬 入 时 间 上 点 数据 
技巧 1 中 订单 的 例子 已 经 提 到 ， 当 一 个 商品 打折 或 者 换 了 图 片 ， 并 不 需要 更 改 原 来 
订单 中 的 信息 。 类 似 这 种 特定 于 某 一 时 刻 的 时 间 点 数据 ， 都 应 做 修 入 处 理 。 


订单 文档 中 还 有 一 处 也 是 这 样 ， 地 址 也 是 这 种 时 间 点 数据 。 若 某 人 更 新 了 个 人 信息 ， 
那么 并 不 需要 更 改 其 以 往 的 订单 内 容 。 


MongoDB 存储 数据 的 机 制 决 定 了 对 数组 不 断 追 加 数据 是 很 低 效 的 。 在 正常 使 用 中 
数组 和 对 象 大 小 应 该 相 对 固定 。 

所 以 ， 谍 人 20 个 子 文档 ， 或 者 100 个 ， 或 者 1 000 000 个 都 不 是 问题 ， 

这 么 做 ， 之 后 基本 保持 不 变 。 放 任 文 档 增长 会 使 系统 慢 得 让 你 受 不 了 的 ，。 

评论 古 个 比较 特殊 的 地 方 ， 因 应 用 不 同 而 差别 较 大 。 对 大 多 数 应 用 而 言 ， 评 论 应 读 
内 妊 到 所 依附 的 父 文档 中 。 但 是 ， 有 些 系统 中 评论 本 身 自 成 条 目 ， 或 者 动 园 成 百 上 
于 ， 这 种 情况 就 应 该 将 其 放 到 独立 的 文档 中 了 。 

还 有 个 例子 ， 假 设 正 在 做 一 个 以 评论 为 核心 的 应 用 。 技 巧 3 中 相册 的 例子 与 此 有 点 
类 似 ， 主 要 的 内 容 就 是 评论 ， 这 时 将 其 作为 单独 的 文档 处 理 比 较 合 适 。 


1 .7 技巧 7， 预 填充 数据 
如 琳 已 经 知道 未 来 要 用 到 哪些 字段 ， 第 一 次 插入 时 就 带 着 这 些 字段 会 比 用 到 时 再 创 
建 效率 更 高 。 例 如 ， 做 一 个 网 站 分 析 的 应 用 ， 以 查看 一 天 当中 每 一 分 锅 有 多 少 用 户 
查看 不 同 的 页 面 。 设 置 一 个 pages 集合 ， 其 中 每 个 文档 表示 一 个 页 面 6 个 小 时 的 信 
妃 。 而 且 要 按 分 钟 和 小 时 两 种 频率 来 存储 信息 : 

| 

















" id" : pagelId, 

"gtart" : time, 

"visits" : { 

"minutes" : 上 

[numo, numi, ..., nums9s], 
[numo, Numl, ..., num59]), 
[numo, numi, ..., fumss], 
[numo, numl, ..., nums9l], 
[numo, numl, ..., Nums9], 
[numo, numi, ..,, Nuyumso9] 
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| 当 有 一 个 以 当前 时 间 
为 开始 时 间 的 字段 ， 未 来 6 小 时 每 一 分 钟 的 数据 都 会 记录 在 另 一 个 字段 中 ， 然 后 是 
一 个 接 一 个 的 类 似 文 权 。 
因此 ， 可 以 在 系统 负载 较 低 的 时 段 批量 插 人 模板 文档 ， 或 者 将 这 个 工作 均匀 地 散布 
到 一 天 当中 。 搬 入 的 文档 具有 类 似 下 面 的 结构 ， 将 someTime 替换 为 接 下 来 6 小 时 
的 开始 时 间 ， 





{ 
" 1d" - pagelId, 
"start" ; SomeTime, 
"yisites" : 1 
"minutes" : [ 
[0 WV, ..-., 0] 
[0O, 0, ..., 0] 
[0, D, ..., 0) 
[0 DD, -vv D0] 
[0，0， 0 
[0 D0, ..., 0] 
| 
i [0, 0; 0, 0, 0, 0] 
} 
| 


用 为 其 分 配 空间 了 ， 只 





这 样 ， 当 增加 或 者 设置 这 些 计数 器 的 时 候 ，MongoDB 就 不 
更 新 已 输入 的 值 ， 这 要 快 得 多 。 


例如 ， 在 某 一 小 时 开始 的 时 候 ， 可 以 这 样 更 新 : 

> db.pages.update({" id" : pageId, "start" : thisHour}, 

,。。 {sincrn : {"visits.0.0" : 3}}) 
这 一 想法 也 适用 于 其 他 类 型 的 数据 ， 甚 至 集合 和 数据 库 也 可 以 用 娄 似 的 方法 。 若 每 
天 都 要 使 用 新 的 集合 ， 最 好 也 提前 创建 。 


这 个 拉 巧 与 技巧 6 和 技巧 7 关系 紧密 。 只 要 知道 文档 开始 比较 小 ， 后 来 会 变 为 确定 
的 大 小 ， 栈 可 以 使 用 这 种 优化 方法 。 一 开始 插入 文档 的 时 候 ， 就 用 和 最 终 数 据 大 小 
一 样 的 垃圾 数据 填充 ， 即 添加 一 个 garbage 字段 (其 中 包含 一 个 字符 串 ， 串 大 小 与 
文档 最 终 大 小 相同 ) ， 然 后 马上 重 置 字段 。 





> ClJlecticn.insezrt ({" id : 123, /* other fields */, "garbadgqe" : SomeLongString|) 
> collection.updatetl" ian : 123}, ff"$unset" : 1"garbage" : 1}}) 


这 样 ，MongoDB 就 会 为 文档 今后 的 增长 分 配 是 够 的 空间 。( 参 见 图 1-3,) 





ee je 
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欢迎 点 击 这 里 的 链接 进入 精彩 的 Linux 公 社 网 站 


Linux 公 社 (www.Linuxidc.com) 于 2006 年 9 月 2$ 日 注册 并 开通 网 站 ，Linux 现 在 已 经 成 为 一 种 广 受 关注 和 文 持 
的 一 种 操作 系统 ，IDC 是 互联 网 数据 中 心 ，LinuxIDC 就 是 关于 Linux 的 数据 中 心 。 


Linux 公 社 是 专业 的 Linux 系 统 | 门户 网 站 ， 实 时 发 布 最 新 Linux 资 讳 ， 包 括 Linux、Ubuntu、Fedora、RedHat、 红 


旗 Linux、Linux 教 程 、Linux 认 证 、SUSE Linux、Android、Oracle、Hadoop、CentOS、MySQL、Apache、 
Nginx、Tomcat、Python、Java、C 语 言 、OpenStack、 集 群 等 技术 。 


Linux 公 社 (LinuxIDC.com) 设置 了 有 一 定 影 啊 力 的 Linux 专 题 栏 目 。 
Linux 公 社 主 站 网 址 : WWWw.linuxidc.com 旗下 网 站 : Www.linuxidc.net 


包括 : Ubuntu 专题 Fedora 专题 Android 专题 Oracle 专题 Hadoop 专题 RedHat 专题 SUSE 专题 
红旗 Linux 专题 CentOS 专题 


有 TI ULX 公 社 


www.Linuxidc.com 











Linux 公社 微 信 公众 写 : linuxidc com 








图 1-3， 如 果 存 储 文档 时 便 为 其 分 配 将 来 所 需 的 空间 ， 之 后 便 不 再 需要 移动 它 


1.9 技巧 9， 用 数 : 
一 个 常见 的 问题 就 是 内 能 的 信息 到 底 是 用 数组 存 还 是 用 子 文档 存 。 如 果 确 切 知道 要 


查询 的 内 容 ， 则 要 用 子 文 档 。 如 果 有 时 不 太 清楚 查询 的 具体 内 容 ， 则 要 用 数组 。 当 
知 违 一些 条 目的 查询 条 件 时 ， 通 常 该 使 用 数组 。 


假设 要 编写 一 款 游戏 ， 其 中 的 玩家 可 以 挑选 各 种 物品 。 我 们 可 以 对 下 
建 模 ， 


{ 





家 的 文档 这 样 








" iid" ; "fred", 
"jtems" : 1 
"slingshot" : { 
时 type Hn "weapon”" hr 
"damage" : 23, 
"ranged" ;:; true 


; "container”" 
ncontaing" : "fairy" 





}, 
"sword" : { 
"typPe” : "Weapon', 
"damage" : 50, 
"ranged" : false 


} 
} 


假设 要 找 出 所 有 伤害 值 (aamage) 大 于 20 的 武器 。 子 文档 不 支持 这 种 查找 物品 


= 时时 四 中 时 时 时 昨 四 | 
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(items) 的 方式 :“ 给 我 所 有 伤害 值 大 于 20 的 物品 。 你 只 能 知晓 具体 某 种 物品 的 
信息 ， 如 “items.slingshot .damage ( 弹 马 的 伤害 值 ) 大 于 20 吗 或 “items. 
sword .damage ( 剑 的 伤害 值 ) 大 于 20 吗 ” 等 。 


如 玉 想 无 需 标识 从 就 能 获得 某 项 的 信息 ， 就 要 用 数组 : 


" id" ; "fred", 
"ijtems" : I[ 
{ 
"id" : "glingshot", 
"type" : "weapon", 
"damage" : 23, 
"ranged" :; true 
}， 
t 
HId" 3: "jar", 
"type" : "container", 
"contains" : "fajiry" 
}, 
人 
"9 : "SwWoOrd", 
"type” : "weapon", 
"damage" : 50， 
"ranged" :; false 


} 


这 样 用 一 条 查询 {"items.damage" : {"$gt" : 20}} 就 可 以 了 。 如 果 需 要 多 条 
件 碍 询 ( 比 如 伤害 值 和 攻击 范围 )， 可 以 用 selemMatch ( 见 http://www.mongodb. 
org/display/DOCS/Advanced+Queries#tAdvanced Oueries-W%24elem Match ) 。 


那么 什么 时 候 读 用 子 文档 呢 ? 字段 名 总 是 已 知 的 时 候 最 适合 了 。 


例如 ， 假 设 我 们 要 了 解 玩家 的 属性 ， 包 括 力量 (str)、 智 力 (int)、 经 验 (wis). 
敏捷 (dex)、 健 康 (con) 和 魅力 (cha)。 此 时 ， 我 们 总 是 明确 地 知道 要 查询 哪个 
属性 ， 所 以 可 以 这 样 设计 ; 


" ia : "fred”», 
工 上 Ce : "gnome", 
"class" : "illusionist", 
"abilities" : ff 
str" : 20, 
INnt™ : 12, 
"wis" : 18, 
"dex" : 24, 
eon" 23， 
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要 查询 某 个 属性 时 ， 可 以 用 abilities,.str， 和 abilities.con 之 类 的 查询 。 我 
们 绝 不 会 查找 哪个 属性 大于 20， 总 是 会 知道 要 查 哪 个 属性 。 


1.10 技巧 10: 文档 要 自给 自足 


MongoDB 是 一 种 “无 脑 ” 的 大 型 数据 存储 。 也 就 是 说 ，MongoDB 几乎 不 做 任何 数 
据 处 理 ， 仅 仅 存 取 数 据 。 要 尽量 太守 这 点 ， 避 免 让 MongoDB 做 些 能 在 客户 端 完成 
的 计算 。 即 便 是 些 “ 小 ”任务 ， 像 求 平 均值 或 求 和 ， 也 要 放 在 客户 端 去 做 。 


如 朱 要 找 的 信息 必须 经 过 计算 ， 且 无 法 直接 从 文档 中 获得 ， 有 两 种 方式 ; 


* 和 付出 高 郧 的 性 能 代价 (强制 MongoDB 使 用 JavaScript 计算 ， 参 见 技巧 11) ， 
。 优化 文档 结构 ， 使 得 这 些 信息 能 够 从 文档 中 直接 获得 。 


通 第 ， 你 只 寄 通过 文档 直截了当 地 给 出 这 些 信息 。 


现在 假设 要 找到 蔷 果 (apples) 和 林子 (oranges) 忆 数 为 30 的 文档 。 文 档 结 
构 如 下 : 


| 
"id" : 1233, 
"apples" : 10, 
"Oranges" ; 5 
| 


像 上 面 这 样 霸 计 的 话 ， 查询 总 数 的 任务 就 得 仰 会 Javascript Fs 结果 会 非常 低 效 。 
但 是 可 以 在 文档 中 加 入 一 个 总 数 (total) 字段: 


( 
ld" : 123 
apples" 10 
Oranges!" = 
total" 15 
: 


apples 和 oranges 字段 变化 时 总 数 也 要 变化 ; 


> db,food.update (criteria, 
ff Sine : { "apples” ; 10, “oranges” : -2, "total” . 8}}) 
> db.food.findonert) 
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"Oranges" 3， 
itotal" : 23 


| 
如 果 不 太 确定 更 新 会 改变 什么 内 容 ， 情 况 就 会 变 得 复杂 。 例 如 ， 要 查询 水 果 的 种 类 ， 
但 是 不 知道 更 新 会 不 会 增加 新 品种 。 


假 上 让 文档 如 下 ， 
{ 
" id"” :; 123， 
"apples™" : 20, 
"oranges : 3, 
"total" : 2 


| 


如 条 一 个 更 新 可 能 创建 新 的 字段 ， 也 可 能 不 创建 ， 品 种 总 数 该 不 该 增加 呢 ? 若是 创 
建 ] 新 的 于 良 ， 总 数 也 下 要 随 独 增加 的 : 


> db.food.update({" id : 123}, {"s$inc" : {"banana" ; 3, "total" : 1}}) 
相反 ， 如 果 panana 字段 已经 有 了 ， 则 不 应 增加 总 数 。 但 是 客户 端 根 本 无 从 知晓 其 
存在 与 否 。 


致 性 。 
快速 的 做 法 就 是 向 单 选 择 给 total 加 1 或 者 不 加 ， 然 后 让 应 用 在 客户 端 验证 实际 的 
总 数 。 可 以 做 一 个 一 直 在 后 台 运 行 的 批 处 理 任务 来 纠正 这 些 不 一 致 的 地 方 。 


如 果 应 用 时 间 不 紧 ， 可 以 用 finaandModify 来 “ 销 ” 住 文档 ( 设 定 “locked” 字 
段 ， 其 他 写 入 会 手动 检查 这 个 字段 )}， 返 回 文档 ， 然 后 同时 对 文档 解锁 并 更 新 相应 的 
字段 和 total: 








> Var result = db.runcomand({"findAndModify" : "foodn", 
. "query" : I/* 其 他 条 件 */， "locked" : falsel}, 
. "update" ; {"s$set" : {"locked" : true}}}) 
> 
> if ("banana" in result .value) 1 
. db.fruit.update (criteria, {"sset" : {"locked" : false}, 
"Sinc" : {'"banana" : 31}}) 
... } else | 
... /YA 如 果 banana 不 存在 ， 则 将 total 值 递增 
.+ db.fruit,.update (criteria, {"$set" :. {"locked" : false}, 
I "$inc" ; {"banana" : 3, "total®" ; 1}})) 
a 
a | 是 而 
究竟 是 用 哪 种 得 看 具体 情况 。 
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1.11 技巧 11: 优先 使 用 $ 操 作 符 


$ 操作 符 应 付 不 来 某 些 操作 。 但 是 对 于 绝 大 多 数 应 用 ， 让 文档 本 身 提 供 足 使 的 内 容 
可 以 极 大 地 简化 查询 的 复杂 度 。 然 而 ， 还 是 有 些 情 况 下 的 查询 不 能 用 $ 操作 符 表 达 。 
这 有 时候 就 得 借助 JavaScript 了 ， 可 以 在 查询 中 使 用 $swhere 子 句 来 执行 JavaScript 
代码 。 


查 仙 中 的 swhere 对 应 一 个 JavaScript 国 数 ， 该 图 数 的 返回 值 为 true 或 者 
falset 表示 匹配 与 百 )。 要 是 想 查找 所 有 member [0] .age 和 member [11] . age 相 
等 的 文档 ， 可 以 这 样 操 作 : 

> db.members.find({"$where" : function(}) { 


. return this.member [DO] .age == thigs .member [1L] .age; 


.. }}) 
正如 预期 ，$where 为 查询 带 来 了 极 大 的 灵活 性 。 但 是 也 带 来 很 大 的 效率 问题 。 


1.11.1 深入 了 解 

swWwhere 下 ¥ 这 不 遍 是 因为 MongoDB 为 此 要 做 很 多 事情 。 对 于 普通 的 查询 (没有 
$swhere 的 查询 )， 客 亡 端 将 查询 转换 成 BSON (http: Wwww.bsonspec.org)， 然 后 
发 送 给 数据 库 。MongoDB 中 的 数据 也 是 BSON 格式 ， 所 以 直接 比较 就 可 以 了 。 这 
种 查询 非常 高 效 。 


若 古 非得 用 swhere 不 可 ，MongoDB 就 得 将 集合 中 的 每 一 个 文档 都 转换 成 
JavaScript 对 象 ， 解 析 文档 的 BSON 并 添加 它们 的 所 有 字段 到 JavaScript 对 象 中 。 然 
后 执行 JavaScript， 之 后 就 销毁 。 所 以 极其 消耗 时 间 和 资源 。 


1.11.2 提高 性 能 
$where 在 必要 时 很 有 用 ， 但 能 避免 应 尽量 避免 。 实 际 上 ， 如 果 查 询 中 有 很 多 
$where， 说 明 应 该 重新 考虑 数据 库 设 计 是 否 合理 了 。 


大 是 Swhere 确 有 必要 ， 可 以 减少 swhere 要 匹配 文档 的 数量 来 缓解 性 能 损失 。 设 
直 一 此 不 用 $swhere 就 能 执行 的 查询 条 件 ， 并 将 其 放 在 最 前 面 。swhere 遍历 的 文档 
越 少 ， 需 要 的 时 间 就 越 少 。 
还 是 使 用 上 面 的 例子 ， 既 然 要 查看 会 员 的 年 龄 ， 那 么 必须 得 是 多 人 会 员 (joint), 
比如 家 庭 会 员 (family): 


> db.members.find({'type' : {$in : ['joint', ' family']}, 
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. . 。 15$wheren : functiconft) 1 
return this.member [0] .age == this.member [ 工 ] .age; 


1 
这 样 单 人 会 员 就 不 在 swhere 遍历 范围 内 了 。 


1.12 技巧 12: 随时 
要 尽 可 能 用 $inc 随时 计算 聚合 。 例 如 技巧 7 中 ， 分 析 程 序 要 有 按 分 钟 和 按 小 时 的 
统计 数据 。 增 加 按 分 钟 统计 的 数据 上 时， 同时 可 以 增加 按 小 时 统计 的 数据 。 


如 果 聚 合 需要 进一步 的 计算 〈( 比 如， 计算 每 小 时 的 平均 查询 次 数 ) ， 就 要 将 数据 存放 
到 分 钟 字段 中 ， 然 后 由 后 台 的 批 处 理 按 分 钟 字 段 中 的 最 新 数据 计算 平均 值 。 由 于 所 
有 需要 聚合 的 信息 都 在 一 个 文档 中 ， 对 较 新 的 (未 聚合 的 ) 文档 ， 甚 至 可 以 把 计算 
放 到 客户 端 。 至 于 旧 文 档 ， 应 该 都 通过 批 处 理 计算 完了 。 


Fe. 部 








1.13 ”技巧 13: 编写 代码 处 理 数据 完整 性 问 是 
由 于 MongoDB 无 模式 的 特点 和 反 范 式 化 的 优势 ， 你 需要 注意 应 用 数据 的 一 致 性 
问题 。 


很 多 ODM 有 多 种 方法 来 确保 不 同 级 别 的 一 致 性 。 然 而， 还 是 会 有 一 致 性 问题 ， 如 
由 于 系统 般 注 导致 的 数据 不 一 致 (技巧 1)， 由 于 MongoDB 更 新 的 限制 导致 的 不 一 
致 (技巧 10)。 要 处 理 这 些 不 一 致 ， 要 有 个 脚本 做 数据 验证 。 


按照 本 章 的 建议 ， 可 能 要 有 几 个 cron 任务 ， 这 取决 于 具体 的 应 用 ， 如 下 所 示 。 
一 致 性 修复 器 
核对 计算 ， 检 
预 分 配器 
创建 今后 要 用 到 的 文档 。 

宁 合 器 

更 新 文档 内 部 的 聚合 数据 ， 使 之 为 最 新 数据 。 
其 他 有 用 的 脚本 (和 本 章 联 系 不 太 紧 密 ) 如 下 。 











译注 1]; 对 象 文档 映射 ， 娄 伺 于 关系 型 数据 库 的 ORM 
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结构 校 验 器 
确保 当前 所 用 的 文档 都 有 指定 的 字段 ， 否 则 就 自动 校正 或 者 发 送 通 知 。 


备份 任务 
定期 对 数据 库 做 fsync、 加 锁 和 导出 操作 。 
在 后 台 执 行 一 些 检 查 和 保护 数据 的 脚本 ， 能 解除 很 多 后 顾 之 忧 。 
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2.1 技巧 14: 使 用 正确 的 类 型 
用 正确 的 类 型 存放 数据 大 有 神 益 。 数 据 类 型 影响 数据 的 查询 方式 、MongoDB 的 数 
据 存 放 顺 序 ， 以 及 占用 多 少 空间 。 


数学 


作为 数字 使 用 的 字段 都 应 该 作为 数字 存储 。 也 就 是 要 做 计算 或 者 按 大 小 排序 的 字段 。 
但 是 ， 用 哪 种 数字 呢 ? 有 时 无 所 谓 ， 有 时 则 要 慎重 考虑 。 


按 大 小 排序 所 有 数字 类 型 都 没 问 题 。 比 如 把 一 个 32 位 整数 2、64 位 整数 1 和 一 个 
双 精 度 浮 点 数 (64 位 浮 点 数 ) 1.5 排序 ， 不 会 有 任何 问题 。 但 是 一 些 特 定 操作 需要 
数据 为 某 些 特定 类 型 ， 如 位 操作 (AND 和 OR) 只 适用 于 整数 (不 能 是 双 精 度 浮 
点 数 ) 。 


数据 库 会 自动 转换 游 出 的 (比如 由 于 sinc 操作 导致 的 谥 出 ) 32 位 浮 点 数 ， 将 其 恋 
成 64 位 整数 ， 所 以 不 必 多 虑 。 


日 期 


和 数字 类 似 ， 是 精确 的 日 期 就 要 存 成 日 期 的 类 型 。 但 是 ， 有 些 日 期 (比如 生日 ) 并 
不 是 很 精确 ， 谁 也 不 会 知道 自己 出 生 时 间 的 毫秒 数 。 诸 如 此 类 的 日 期 ， 用 ISO 格式 
的 日 期 就 好 了 ， 也 就 是 yyyy-mm-dd 形式 的 字符 串 。 这 样 对 生日 排序 也 不 会 有 问题 ， 
用 起 来 更 方便 ， 而 使 用 aate 类 型 总 会 要 求 匹配 到 毫秒 级 别 。 


字符 串 
MongoDB 中 的 字符 旱 都 是 UTF-8 编码 的 ， 所 以 其 他 编码 形式 的 字符 串 必 须要 么 转 
换 成 UTF-8 编码 ， 要 么 以 二 进 制 形式 存储 。 

ObjectId 


opjectId 就 要 作为 objectId 存储 ， 千 万 不 要 在 成 字符 串 。 这 点 非常 重要 ， 原 因 
如 下 。 第 一 ， 方 便 查询 (字符 串 和 objectIa 不 能 相互 匹配 )。 第 二 ， ObjectIda 合 
有 有 用 的 信息 ， 绝 大 多 数 驱动 都 有 方法 从 objectIa 中 获知 文档 的 创建 日 期 。 第 三 ， 
字符 串 表 示 的 objectIa 要 多 占 两 倍 磁盘 空间 。 


2.2 技巧 15: 用 简单 唯一 的 ia 替换 id 
要 是 数据 本 身 没 有 一 个 唯一 的 字段 (通常 就 是 这 样 )， 那 么 就 用 默认 的 objectra 作 
为 id。 人 但是， 若是 数据 本 身 就 有 唯一 的 字段 ， 并 且 不 需要 objectia 的 功能 ， 那 
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么 就 用 自己 唯 一 的 值 覆盖 掉 默认 的 ia 好 了 。 这 样 会 节省 一 些 空间 ， 尤 其 是 要 对 访 
字段 创建 唯一 索引 时 ， 就 会 省 下 一 个 索引 的 空间 和 资源 (非常 显著 的 节约 ) 。， 


使 用 自 定义 的 ia 还 有 些 葡 端 。 第 一， 要 确保 其 唯一 性 ， 并 且 要 处 理 键 值 重 复 异 
常 。 第 二 ， 要 留意 索引 的 树 结 构 (技巧 22) , 要 清楚 随机 和 非 随机 的 插入 顺序 会 怎 
样 。 就 案 引 树 和 而 言 ，object1Ia 的 插入 顺序 韭 党 好 ， 因 为 它 的 值 总 是 增加 的 ， 所 以 
插 人 总 是 在 B 树 的 右 侧 边 上 进行 。 这 样 MongoDB 只 需要 将 B 树 的 右 侧 边 放 在 内 在 
中 就 可 以 了 。 

与 之 相反 ，_id 中 随机 的 值 会 导致 在 整个 树 上 插入 。 这 样 系统 就 必须 将 对 应 的 索引 
页 面 疯 信人 内存， 更 新 一 点 点 ， 然 后 就 可 能 放 之 不 管 ， 直 到 它 被 系统 移出 内 存 。 这 样 
效率 不 高 。 





2.3 技巧 16: 不 要 用 文档 华 | id 


除了 不 可 避免 的 情况 (如 MapReduce 的 输出 ) ， 通 常 都 不 应 该 将 文档 作为 ia。 问 
题 束 任 于 索引 一 个 文档 中 的 字段 和 索引 文档 完全 不 一 样 ， 如 果 设 有 每 次 查询 整个 子 
文档 的 计划 ， 最 后 会 有 多 个 索引 , 如 id、 id.foo、 id.bar 等 。 


更 改 ia 必须 得 覆盖 整个 文档 ， 所 以 若 子 文档 的 字段 有 变化 则 更 新 非常 不 便 。 
2.4 ”技巧 17: 不 要 用 数据 库 引 用 


这 个 技 马 特 指 子 文 档 形式 的 数据 库 引 用 ， 不 是 通常 意义 的 引用 (如 前 一 章 
所 述 )。 





数据 库 引 用 一 般 是 形 如 {$id : identitier，SreE : colLlectionName} (也 可 
以 有 可 选 的 $db 字段 ， 表 示 数 据 库 名 ) 的 常见 子 文档 。 这 有 点 像 关系 型 数据 库 ， 引 
用 了 为 一 个 集合 中 的 文档 。 但 是 ， 并 不 是 真正 引用 了 共 他 和 集合， 仅仅 是 一 个 普通 的 
子 文档 。 完 全 没有 什么 神奇 之 处 。MongoDB 也 不 能 在 必要 的 时 候 即 时 解除 数据 库 
引用 。MongoDB 也 不 用 这 种 方式 做 联结 。 它 们 只 是 存放 了 ia 和 集合 名 的 普通 子 
文档 。 也 就 是 说 为 了 解除 数据 库 引 用 必须 要 对 数据 库 额外 做 一 次 查询 。 


在 锌 引用 文档 的 集合 是 确定 的 ， 不 妨 只 用 ia 引用， 这样 比 同时 用 id 和 集合 名 要 
省 至 间 。 如 果 知 道 要 引用 的 集合 ， 数 据 库 引用 就 显得 有 些 浪费 空间 。 


译注 1，_id 自 带 了 唯一 索引 ， 且 不 可 取消 。 
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我 只 听 说 过 一 次 数据 库 引 用 产生 了 积极 地 效果 ， 那 个 系统 中 的 用 户 可 以 评论 系统 中 
的 任何 事情 。comments 集合 中 存储 着 数据 库 引 用 ， 这 些 引 用 几乎 覆盖 了 系统 的 每 


个 角落 。 











<.D 拉 巧 18: 不 要 用 GridFS 处 理 小 的 二 


GridFS 需要 查询 两 次 ， 一 次 获取 文件 的 元 信息 ， 另 一 次 获取 其 内 容 (图 2-1)。 所 以 
如 采用 GridFS 存储 小 文件 ， 会 使 应 用 查询 次 数 加 倍 。 从 根本 上 说 ，GridFS 是 用 来 
将 大 的 二 进 制 对 象 切 成 小 片 存 放 到 数据 库 中 。 











本 
[fs.files 


二 四: | 
ae | 上 





: 
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<-1: GridFS 将 大 数据 分 成 小 块 存储 





GridFS 征用 来 存放 大 数据 的 一 一 至 少 得 是 一 个 文档 放 不 下 的 数据 。 根 气色 验 来 讲 ， 
因为 过 大 而 使 客户 端 一 次 加 载 不 了 的 东西 一 般 也 不 需要 服务 端 一 次 加 载 。 所 以 ， 那 
时 可 以 作为 数据 流传 递 给 客户 端的 数据 非常 适合 应 用 GridFS 需要 在 客户 端 一 次 全 
那加 载 的 东西 ， 如 图 片 、 声 音 ， 甚 至 小 的 视频 ， 通 常 都 应 该 企 到 主 文档 中 。 


延伸 阅读 : 











” GridFs 机 理 (http:/www.mongodb.org/displawDOCS/GridFS) 
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2.6 技巧 19: 处 理 “ 无 缝 ” 故 隆 切 换 


人 们 经 常 听 到 MongoDB 可 以 做 无 锋 的 故障 切换 ， 所 以 当 遇 到 异 稼 就 会 非常 惊讶 。 
MongoDB 不 需要 干预 就 会 尝试 进行 故障 恢复 ， 但 是 有 些 特定 错误 是 它 无 法 日 动 处 
理 的 。 


假设 发 送 给 服务 况 一 个 请 求 ， 得 到 了 网 络 错误 。 这 时 驱动 有 很 多 选择 。 


苟 驱动 不 能 重 连 数据 库 ， 显 然 就 不 能 重新 尝试 发 送 请 求 。 但 是 ， 若 驱动 知道 有 男 
一 台 服 务 右 ， 它 可 以 自动 对 其 发 送 请 求 吗 ? 这 要 看 到 底 是 什么 样 的 请 求 。 如 果 是 
对 活跃 万 扩 的 写 和 入， 可 能 没有 别 的 活跃 布 扩 了 。 要 是 读 取 ， 比 如 需要 执行 很 入 的 
MapReduce 操作 ， 本 来 执行 任务 的 从 属 市 皮 出 故障 了 ， 驱 动 也 不 应 该 转发 请 求 到 随 
便 选 的 其 他 服务 绒 〈 万 一 是 活跃 玉 点 呢 ? )。 所 以 ， 对 另 一 台 服 务 器 不 能 自动 重 试 。 


婴 定 钮 误 仅 仅 是 临时 的 网 络 错误 ， 且 驱动 立刻 重新 获得 了 服务 器 的 网 络 连 接 ， 它 也 
不 应 该 重新 发 送 请 求 。 要 是 哎 动 发 送 原始 请 求 后 发 生 网 络 故 障 ， 或 者 在 服务 器 响应 
的 时 候 发 生 故 障 该 怎么 办 ? 数据 库 可 能 已 经 处 理 了 请 求 ， 所 以 不 必 再 次 发 送 。 


这 个 令 人 头痛 的 问题 总 是 和 应 用 相关 ， 所 以 驱动 将 问题 推 给 了 使 用 者 。 用 户 必 须要 
处 理 网 络 异常 ( 详 见 驱动 文档 )。 处 理 异常 ， 然 后 逐 请 求 地 判断 要 重新 发 送 请 求 吗 ， 
要 先 确定 数据 库 状 态 吗 ， 可 以 直接 放弃 吗 ， 还 是 需要 继续 重 试 ? 


2.7 ” 拉 巧 20: 处 理 复制 组 失效 及 故障 恢复 
应 用 要 能 处 理 所 有 复制 组 会 远 到 的 极端 情况 。 


假设 应 用 抛 出 了 “not master” 异 常 。 可 能 有 几 个 原因 ， 复制 组 正在 做 故障 恢复 ， 应 
用 必须 要 平滑 地 应 对 活跃 节点 选举 的 这 段 时 间 。 选 举 的 时 间 不 尽 相同 ， 一 般 只 需要 
几 秒 钟 ， 但 也 有 超过 30 秒 的 时 候 。 车 是 被 分 割 到 了 网 络 上 状况 不 佳 的 一 部 分 ， 可 能 
数 小 时 都 连 不 上 主 节 点 。 

看 不 到 主 太 局 是 要 重点 处 理 的 情况 ， 如 果 遇 到 了 这 种 情况 ， 你 的 应 用 能 降级 为 只 读 
模 却 吗 ? 应 用 要 能 应 对 短 时 (活跃 节点 选举 ) 只 读 和 长 时 (大 部 分 机 器 宕 机 或 者 网 
络 割 裂 ) 只 读 。 

无 论 有 没有 活跃 节点 ， 都 应 该 能 继续 从 能 连接 的 节点 读 取 数 据 。 

友人 在 选举 期 间 会 进入 短暂 的 不 可 读 的 “恢复 ”阶段 ， 驱 动 若是 请 求 读 取 处 于 这 种 
状态 的 节 氮 ， 则 这 些 节 点 会 抛 出 错误 表明 自己 “ 既 不 是 主 节点 也 不 是 从 属 节 点 ”。 这 
种 状态 也 可 能 非常 短暂 ， 以 至 于 就 被 驱动 发 送 给 数据 库 的 两 次 ping 错过 了 。 
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编写 应 用 的 人 通常 都 希望 数据 库 能 即时 啊 应 。 为 了 使 应 用 尽 可 能 做 到 这 上 后， 哎 必 须 
要 知道 什么 最 耗 时 间 。 


3.1 技巧 21: 尽 可 能 减少 磁盘 访问 

内 存 访问 比 磁盘 访问 要 快 得 多 。 所 以 ， 很 多 优化 的 本 质 就 是 尽 可 能 地 减少 对 磁盘 的 
访问 。 

模糊 数学 

内 存 的 读 取 速 度 比 磁盘 快 一 百 万 倍 。 

比方 说 通过 机 械 硬 盘 访问 数据 要 10 毫秒 ， 而 内 存 访问 只 要 10 秒 。( 这 在 很 大 程度 上 
取 诀 于 硬盘 和 内 存 的 种 类 ， 此 处 只 是 笼统 的 说 法 ， 力 求 给 人 一 个 大 致 的 印象 .) 对 应 
的 时 间 比 值 就 是 1 毫秒 比 1 纳 秒 。1 毫秒 等 于 100 万 纳 种 ， 所 以 磁盘 访问 时 间 要 上 比 
内 存 长 大 约 一 百 万 倍 。 


所 以 从 计算 结果 得 知 ， 读 磁盘 要 消耗 很 长 时 间 。 





了 下 二 








在 Linux 中 ， 我 们 可 以 通过 运行 sudo hdparm -t /dev/hdwhatever 来 
稼 看 连续 磁盘 访问 的 信息 。 但 不 会 很 精确 ， 因 为 MongoDB 还 有 些 非 连续 
的 读 写 ， 不 过 看 看 机 器 能 做 什么 也 挺 有 趣 的 。 





那么 ， 究 葛 该 如何 应对 昵 ? 有 几 种 “简单 ”的 办 法 。 
使 用 SSD 


SSD (固态 硬盘 ) 在 很 多 情况 下 都 比 机 械 硬 盘 快 很 多 ,但 容量 小 ， 价 钱 高 ， 难 以 安 
全 请 除数 据 ， 与 内 存 读 取 速 度 的 差 踊 依 旧 明 显 。 但 是 ， 还 是 可 以 堂 试 用 用 和 的。 一 般 
”来 党 SSD 与 MongoDB 配合 得 非常 完美 ， 但 也 不 是 一 定 见 效 的 灵丹妙药 。 


增加 内 在 


增加 内 存 可 以 减少 对 硬盘 的 读 取 。 但 是 ， 增 加 内 存 也 只 能 解决 燃眉之急 ， 总 有 内 存 
痊 不 下 数据 的 时 候 。 


押 以 ， 问 题 就 变 成 了 如 何在 磁盘 上 存放 太 字 节 级 别 ( 拍 字 节 级 别 ?”) 的 数据 ， 而 同 
时 线 应 用 尽 可 能 只 读 取 在 内 存 中 的 数据 ， 又 尽量 避免 磁盘 和 内 存 之 间 的 数据 移动 


志 要 其 正 实 时 且 随 机 地 访问 数据 ， 就 只 能 仰赖 大 量 内 存 了 。 但 是 绝 大 多 数 应 用 并 不 
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是 这 样 ， 访 问 新 数据 比 老 数据 更 频繁 ， 一 些 用 户 比 其 他 用 户 更 加 活跃 ， 特 定 区 域 比 
其 他 地 方 拥 有 更 多 的 客户 。 这 类 应 用 可 以 通过 精心 设计 ， 让 一 部 分 文档 在 内 存 中 ， 
极 大 减少 硬盘 访问 。 


3.2 ”技巧 22: 使 用 索引 减少 内 存 占 用 


首先 ， 看 看 图 3-1， 共 中 展示 的 古话 请 求 的 处 理 顺 序 ，。 





把 文档 中 的 一 页 


| .ee 
人 加 载 到 内 存 中 





* 


比较 文档 与 查询 








3-1: 对 数据 库 请 求 的 过 程 
本 书 中 假设 内 存 页 面 大 小 为 4 KB， 当 然 实际 中 并 不 总 是 如 此 。 


假设 机 器 共有 256 GB 的 数据 ，16 GB 的 内 存 ， 并 且 几 乎 所 有 数据 都 在 一 个 集合 上 ， 
现在 要 查询 这 个 集合 。MongoDB 会 如 何 处 理 呢 ? 


MongoDB 将 文档 的 第 一 个 页 面 加 载 到 内 存 并 与 查询 比较 。 然 后 加 载 下 一 页 并 比较 。 
如 此 往复 ， 直 至 比较 完全 部 数据 。 没 有 捷径 可 循 ， 不 瞧 一 瞧 文 档 怎 么 能 得 知 到 底 能 
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不 能 匹配 昵 ? 所 以 必须 要 遍历 整个 集合 。 因 此 ， 需 要 全 部 加 载 256 GB 数据 到 内 存 
( 当 需 要 空间 时 操作 系统 会 自动 将 旧 的 页 面 换 出 去 )。 整 个 过 程 相 当 宰 长 。 


怎样 避免 每 次 查询 都 加 载 全 部 数据 的 情况 呢 ? 可 以 让 MongoDB 对 指定 的 字段 x 创 
建 索 引 。MongoDB 会 创建 相应 的 树 ， 大 体 上 预 处 理 这 些 数据 ， 并 将 这 一 集合 中 的 
每 个 x 值 都 添加 到 有 序 树 中 (参见 图 3-2)。 树 中 每 个 罕 引 项 都 舍 有 x 的 值 和 一 个 指 
向 对 应 文档 的 指针 。 树 中 只 有 指 阿 文档 的 指针 ， 而 不 征文 档 本 和 刁 ， 也 束 定 说 案 引 要 
比 整个 集合 小 很 多 。 





1 38 05 


3-2: 日 树 ， 吕 能 对 应 一 个 整数 耶 段 的 索 5| 


当 查 询 条 件 中 有 x，MongoDB 会 发 现 并 利用 x 的 索引 。 这 样 就 不 必 查 找 每 个 文档 ， 
MongoDB 会 这 样 判 断 ;“ 我 要 找 的 值 大 于 还 是 小 于 树 中 当前 节点 的 值 ? 车 大 于 ， 则 
去 而 侧 ， 硅 小 于 ， 则 去 左 侧 。” 如 此 往复 ， 直 到 找到 欲 查 询 的 值 或 者 发 现 其 不 存在 。 
者 是 找到 了 相应 值 ， 则 按照 对 应 的 指针 把 文档 页 面 加 载 到 内 存 ， 并 返回 结果 (参见 
图 3-3) 。 


图 3-3: 索 5| 项 包含 索引 的 值 和 到 对 应 文档 的 指针 


所 以 ， 假 设 查询 能 在 集合 中 找到 一 两 个 匹配 的 文档 。 不 用 索引 的 话 ， 我 们 必须 把 
64 000 000 个 页 面 从 硬盘 加 载 到 内 存 。 


页 面 : 256 GB / (4 KB/ 页 面 ) = 64 000 000 页 面 
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若是 索引 有 80 GB ， 则 索引 有 20 000 000 页 面 。 

页 面 : 80 GB / (4 KB/ 页 面 )= 20 000 000 页 面 

另外 ， 索 引 是 有 序 的 ， 所 以 不 必 遍 历 全 部 项 ， 只 要 加 载 其 中 的 一 部 分 节点 就 可 以 了 。 
有 多 少 呢 ? 

要 加 载 进 内 存 的 页 面 : In(20 000 000) = 17 页 面 

注意 ，64 000 000 竟然 减少 到 了 17 ! 

承 谷 ，17 并 不 惟 确 ， 找 到 索引 中 的 结果 后 还 要 把 文档 加 载 到 内 存 ， 所 以 文档 大 小 也 


得 计算 在 内 ， 另 外 树 中 的 节点 也 可 能 超过 一 个 页 面 大 小 ， 也 要 额外 计算 。 和 但 不 管 怎 
么 品 ， 页 面 的 总 数 与 过 历 整个 集合 比 起 来 还 是 微不足道 的 。 


璐 望 大 和 冥 现在 对 索引 加 速 查询 的 机 理 有 个 大 概 的 认识 了 。 


3.3 ”技巧 23: 不 要 到 处 使 用 索引 


上 面 的 介绍 使 你 惊叹 于 索引 的 强大 作用 ， 但 要 提醒 你 ， 不 是 所 有 查询 都 可 以 用 索引 
的 。 比 如 ， 在 刚才 的 例子 中 ， 要 是 需要 返回 集合 中 90% 的 文档 而 非 获取 一 些 记录 ， 
束 不 应 该 用 索 3|。 


如 未 对 这 种 查询 用 了 索引 ， 结 果 就 是 几乎 遍历 整个 索引 树 ， 把 其 中 一 部 分 ， 比 方 说 
60 GB 网 索引 都 加 载 到 内 存 。 然 后 按照 索引 中 的 指针 加 载 集合 中 230 GB 的 文档 数 
据 。 蜡 终 将 加 载 230 GB + 60 GB =290 GB， 比 不 用 索引 还 多 。 


所 Lt ， 索 引 一 般 用 在 返回 结果 只 是 总 体 数 据 的 一 小 部 分 的 上 时候。 根据 经 验 ， 一 量 要 
大 约 返 回 集合 一 半 的 数据 就 不 要 使 用 索引 了 了。 

右 征 已 经 对 某 个 字段 建立 了 索引 ， 又 想 在 大 规模 查询 时 不 使 用 它 〈 因 为 使 用 索引 可 能 
会 较 低 效 ) ， 可 以 使 用 自然 排序 ， 用 {ngsnatural" : 1} 来 哩 制 MongoDB 禁用 索引 。 
晶 然 排序 就 是 “按照 磁盘 上 的 存储 顺序 返回 数据 ”， 这 样 MongoDB 就 不 会 使 用 索引 了 ， 


> db.foo.find() .sort ({"$natural" : 1}) 


如 未 未 个 查询 不 用 索引 ，MongoDB 会 做 全 表 扫 描 ， 即 逐个 扫描 文档 ， 遍 历 整 个 集 
合 ， 以 找到 结果 ， 


与 入 速度 
每 当 增 加 、 删 除 、 更 新 记录 ， 所 有 相应 的 索引 也 必须 更 新 。 插 入 文档 时 ，MongoDB 
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需要 找到 文档 中 的 值 在 每 一 个 索引 树 中 的 位 置 ， 然 后 在 那儿 插入 。 删 除 时 ， 要 找到 
树 中 的 索引 项 并 删除 。 更 新 时 ， 也 可 能 像 插 入 时 那 伞 新建 案 ?| 项 ， 也 可 能 像 删 除 时 
那样 删除 案 3| 项 ， 厂 古 值 更 新 了 就 会 既 有 添加 羡 有 删除 。 所 以 ， 索 引 会 增加 很 多 额 
外 的 写 人 。 


3.4 技巧 24: 索引 覆盖 查询 

如 六 只 想 返 回 某 些 字段 且 所 有 这 些 字段 都 可 放 在 索引 中 ，MongoDB 可 以 做 索引 忠 
盖 查 询 (covered index query)， 这 种 查询 不 会 访问 指针 指向 的 文档 ， 而 是 直接 用 索 
5| 的 数据 返回 结果 。 比 如 ， 有 如 下 索引 : 


> db.foo.ensureIndex({"x" : 1, "yy" ; 1, "z™ : 1}} 
现在 查询 被 索引 的 字段 ， 并 只 要 求 返回 这 些 字段 ，MongoDB 就 没 必 要 加 载 整 个 文档 : 


> db.foo.find({"x" : criteria, "y" : Criterial, 
ee { "x" Ev" 1, id" 0+}) 


这 样 查询 仅仅 访问 了 索引 的 数据 ， 而 没有 访问 整个 集合 的 数据 。 


注意 结 森 子 句 "id":0， id 是 默认 返回 的 ， 但 不 是 上 面 索 引 的 一 部 分 ， 所 以 
MongoDB 就 需要 到 文档 中 获取 ia。 将 其 去 掉 ，MongoDB 就 可 以 仅 根 据 索 引 返 回 
结果 了 。 


右 是 查询 只 返回 儿 个 字段 ， 则 考虑 将 其 放 到 索引 中 ， 即 使 不 对 它们 执行 查询 ， 也 能 
做 案 引 覆盖 查询 。 例 如 ， 上 面 的 查询 中 并 设 有 用 到 z， 但 是 是 个 要 返回 的 字段 ， 所 
以 放 到 了 案 引 中 。 


3.5 技巧 25: 使 用 复合 索引 加 快 多 个 查询 
若 有 可 能 ， 要 建立 能 被 多 个 查询 利用 的 复合 索引 。 这 未 必 能 实现 ， 但 当 多 个 查询 的 
参数 相似 时 就 有 机 会 。 


得 坷 只要 和 案 引 开头 部 分 匹配 就 能 利用 索引 。 所 以 ， 建 立 索引 时 要 考虑 这 些 查 询 依 
禹 的 所 有 字段 。 


假设 应 用 需要 执行 这 些 查 询 ; 


collection.find{({"x" : criteria, "y" : criteria, "zn" ; Criteria}) 
collection.find({"z" : criteria, "vy" ; criteria, rw" . criterial) 
collection.find{{"y" : criteria, "w" |; criterial) - 
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可 以 看 到 ，Yy 字段 是 唯一 一 个 每 人 小 查 询 都 有 的 ， 所 以 很 适 台 放 到 索引 中 去 。z 在 前 
两 个 中 出 现 了 ，w 在 后 两 个 中 出 现 了 ， 因 此 它们 两 个 都 是 仅 次 于 字段 的 合适 选项 
(索引 排序 详 见 技巧 27 以 及 技巧 28)。 


索引 的 命中 率 越 高 越 好 。 某 个 查询 如 果 更 重要 或 者 执行 更 频繁 的 话 ， 索 引 也 要 针对 
它 进 行 优 人 化。 例如， 假设 第 一 个 查询 的 执行 次 数 是 后 两 个 的 数 千 倍 ， 则 选择 对 其 建 
立案 5|: 


collection.ensureIndex({"y" : 1, "2z" ; 1, "x" : 1}) 
这 样 研 是 针对 第 一 个 查询 尽 可 能 做 了 优化 ， 后 两 个 查询 能 部 分 利用 这 个 索引 。 
右 征 3 个 查询 执行 的 情况 大 体 相 当 ， 下 面 的 索引 则 更 佳 : 
collection.ensureIndex({"y" : 1, "w" : 1, "zs" : 1}) 


这 样 3 个 碍 询 都 能 利用 索引 做 y 条 件 的 查询 ， 后 两 个 查询 能 用 到 w 的 部 分 ， 中 间 的 
查询 则 可 以 完全 利用 这 个 索引 。 


可 以 用 explain 来 查看 查询 中 是 如 何 使 用 索引 的 


collection.findicriteria) .explaint) 


3.6 技巧 26: 通过 建立 分 级 文档 加 速 扫描 
将 数据 组 织 得 有 层次 ， 不 仅 可 以 让 其 看 着 更 有 条 理 ,还 可 让 MongoDB 在 (偶尔 ) 
没有 索引 时 也 能 快速 查询 。 


例如 ， 假 设 有 个 查询 并 不 使 用 索引 。 如 前 文 所 述 ，MongoDB 需要 遍历 集合 中 的 所 
有 文档 ， 来 确定 是 否 有 什么 能 匹配 查询 条 件 。 这 个 过 程 可 能 相当 耗 时 ， 而 这 取决 于 
文档 结构 。 


比方 说 ， 用 户 文档 使 用 了 扁平 的 结构 : 


" id" : 了 工本， 

"name" ; USername, 
"email" :; emalil, 
"twitter" : USername, 
"Screenname'" : USername, 
"tacebook" : usSername, 
"linkedin" : username, 
"phone" : number, 
"gtreet" : Street. 
"city" : city, 
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"gtate" : state, 
zip" : 23i1ip, 
rfax'" : number 


} 
假设 我 们 要 执行 下 面 的 查询 : 

> db.users.find({"zip" : "10003"1}) 
MongoDB 会 做 哪些 工作 呢 ?” 它 必须 遍历 每 个 文档 的 每 个 字段 ， 来 查找 zip 字段 
(图 3-4)。 


[ 









~ _idi nope. 
name! nope 
“、 emall? nope... / 
































加 3-4: 若 文 档 没 有 层次 的 话 ，MongoDB 必须 遍历 文档 中 的 每 个 字段 


使 用 内 储 文 档 我 们 可 以 建立 自己 的 “ 树 ”， 能 让 MongoDB 执行 比 此 查询 时 更 快 。 现 
在 结构 亚 了 了: 





{ 

" id" : id, 

"name" ;} USername, 

"online" ; { 
"email" : email, 
twitter" : USername, 
"Screenname" : UsSername, 
"facebook™" : Username, 
"linkedin™" : username, 

i | 

"address" : 1 
"treet" : street, 
oity" : city, 
"state"™" : State, 
zip" : 21D 

} 

"tele" : 1 
phone" : number., 
"fax" : Number., 

} 

} 


相应 地 查询 也 变 了 : 
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> db.users.find({"address.zip" : "10003"}) 


这 样 MongoDB 在 找到 匹配 的 address 之 前 ， 仅 查看 id、name 和 online， 而 后 
在 address 中 匹配 zip。 合 理 使 用 层次 可 以 减少 MongoDB 对 字段 的 访问 。 


3.7 技巧 27: AND 型 查询 要 点 


假设 要 查询 满足 条 件 A、B、C 的 文档 。 若 满足 A 的 文档 有 40 000, 满足 B 的 有 
9 000， 请 足 C 的 有 200。 要 是 让 MongoDB 按照 这 个 顺序 查询 ， 效 率 可 不 高 (参见 
图 3-5) 。 


KOREA CC 


图 3-5; 深 色 部 分 表示 每 步 部 必须 搜索 的 查询 空间 相 比较 而 言 按照 结果 数量 由 大 到 小 的 
顺序 进行 的 查询 多 做 了 好 多 


如 术 拒 C 放 人 在 最 前 ， 然 后 是 B， 最 后 是 A， 则 针对 B 和 C 只 需要 查看 (最 多 ) 200 
个 文档 (图 3-6) 。 


@ 
3-6: 将 条 件 C 放 在 最 前 面 ， 后 续 查 询 的 搜索 空间 将 明显 减少 
这 样 工作 量 显著 减少 了 。 要 是 已 知 某 个 查询 条 件 更 加 苛刻 ， 则 要 将 其 放置 在 最 前 面 


(尤其 是 在 它 有 对 应 索引 的 时 候 )。 


3.8 ”技巧 28: OR 型 查询 要 点 


OR 型 查询 与 AND 型 查询 正 相 反 ， 匹 配 最 多 的 查询 语句 应 该 放 在 最 前 面 ， 因 为 
MongoDB 每 次 都 要 匹配 不 在 结果 集中 的 文档 。 


石 古 按 照 AND 型 的 顺序 查询 ， 每 次 都 要 查询 很 多 文档 (图 3-7) 。 
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图 3.7， 和 矩形 表示 整个 集合 ， 深 色 部 分 表示 每 一 步 都 要 搜索 的 空间 
后 续 的 每 步 都 需要 查 绝 大 部 分 的 集合 


因此 ， 我 们 应 将 匹配 最 多 的 放 在 最 前 面 (图 3-8)。 





下 
中 


3-8: 将 结果 最 多 的 条 件 前 置 能 缩小 后 续 查 询 的 搜索 
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4.1 技巧 29: 单机 做 日 志 ， 多 机 则 复制 
理想 情况 下 ， 所 有 有 时 写 入 部 能 江 刻 执行 并 永久 地 保留 在 磁盘 上 ， 可 以 被 并 肇 访问 到 ，。 
数据 不 怎么 安全 。 这 是 MongoDB 灵活 性 的 最 佳 体 现 ， 所 以 一 定 要 掌握 各 种 方法 。 


复制 和 日 志 是 MongoDB 确保 数据 安全 性 的 两 种 途径 。 


通 当 儿 要 使 用 复制 ， 而且 至 少 要 有 一 台 服 务 融 启用 日 志 。MongoDB 博客 有 篇 很 棒 
的 文章 , 说 明了 为 什么 不 应 该 在 单个 服务 右上 运行 MongoDB ( 别 的 数据 库 也 一 样 ) 。 


MongoDB 的 复制 日 动 在 服务 器 间 同 步 写 信人 操作。 如果 活跃 节点 停机 ， 则 可 以 将 另 
一 人 台 服 务 益 选 作 主 五 点 《如 采用 了 复制 组 ， 这 个 过 程 就 是 自动 的 )。 


如 果 复 制 组 中 的 一 个 节点 没有 正常 停机 ， 也 没有 启动 - -journal 选项 ，MongoDB 
并 不 能 保证 数据 安全 性 (数据 可 能 已 损坏 )。 所 以 得 有 一 份 干净 的 数据 ， 无 论 删 掉 
后 重新 同步 ， 还 是 加 载 备 份 并 快速 同步 (http://www.mongodb.org/display/DOCS/ 
Upgrading+tot+Replica+Sets#UpgradingtoReplicaSets-UsingsSlave%27sExistineData), 


日 志 能 全 证 单个 服务 器 的 数据 安全 。 所 有 操作 都 将 被 记录 下 来 (日 志 ) 并 定期 写 入 
磁盘 。 如 果 机 器 参 祺 了， 但 硬盘 还 是 好 的 ， 你 就 可 以 重启 服务 器 ， 数 据 会 自动 根据 
日 志 完 成 修复 。 记 住 要 是 硬件 出 了 问题 ，MongoDB 也 无 能 为 力 。 如 果 硬 盘 坏 了 ， 
数据 库 很 可 能 恢复 不 了 。 


虽然 复制 和 日 志 可 以 同时 使 用 ， 但 是 性 能 会 受到 影响 。 两 种 方式 都 会 将 所 有 写 人 进 
行 备 份 ， 所 以 你 可 以 进行 如 下 选择 。 


无 安全 措施 

每 个 请 求 写 人 一 次 。 
复制 

每 个 请 求 写 人 两 次 。 
日 志 

每 个 请 求 写 人 两 次 。 
复制 + 日 志 

每 个 请 求 写 人 3 次 。 
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将 一 条 信息 写 和 人 3 次 确实 有 点 多 ， 但 是 要 是 性 能 无 需 太 高 ， 恰 怡 数据 安全 性 却 非 弟 
重要 ， 没 准 可 以 两 者 结合 使 用 。 后 面 会 讲 一 些 既 安全 又 更 高 效 的 方案 。 


4.2 技巧 30: 坚持 使 用 复制 或 日 志 , 或 两 者 兼用 
单一 服务 器 要 用 --journal 选项 。 


开发 过 程 中 建议 一 直 开 着 --journal 选项 。 在 本 地 MongoDB 配置 中 开 
启 日 志 是 为 了 确保 开发 过 程 中 不 丢失 数据 。 





由 于 使 用 日 志 会 导致 性 能 下 降 ， 多 台 机 器 情况 下 可 以 混合 使 用 启用 日 志 的 和 不 启用 
日 志 的 服务 器 。 备 份 用 的 从 属 节点 可 以 用 日 志 ， 话 跃 节 点 和 热 备 市 点 (尤其 是 做 读 
取 和 负载 均衡 的 记 点 ) 可 以 不 用 。 

图 4-1 展示 了 一 组 小 巧 健壮 的 设置 。 活 跃 节 点 和 热 备 太 点 都 没有 开局 日 志 ， 这 样 能 
够 快速 读 写 。 通 常 遇 到 服务 器 骨 襄 时 ， 可 以 切换 到 热 备 节点 ， 然 后 有 空 的 时 候 再 来 
重启 坏 掉 的 服务 器 。 





图 4-1: 活跃 节点 (P)、 热 备 节点 (S) 和 开启 日 志 的 备份 服务 哟 


即便 其 中 一 个 数据 中 心 完 全 停止 运行 ， 数 据 依 然 是 安全 的 ， 因 为 还 有 一 小安 全 的 数 
据 副 本 。DC2 停机 时 ， 如 果 又 重新 开始 运转 ， 还 是 重启 钾 份 服务 副 就 好 了 。 如 果 
DC1 停机 ， 可 以 将 和 省份 机 器 切换 成 主 节点 ， 或 者 用 其 数据 恢复 DC1 的 机 右 。 就 算 
两 个 数据 中 心 都 停机 ， 至 少 DC2 的 备份 数据 能 让 我 们 用 于 引导 恢复 。 


图 4-2 展示 了 5 台 机 器 的 安全 设计 方案 。 这 个 方案 比 前 一 个 方案 更 可 靠 ， 两 个 数据 
中 心 都 有 热 备 节点 ， 还 有 一 个 加 了 时 间 延 迟 用 来 预防 用 户 误 操 作 ， 还 有 一 台 为 了 以 
防 万 一 局 用 了 日 志 。 


ee— i = 人 TE Ee Te— Te 
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图 4-2: 一 个 活跃 节点 (P) ， 两 个 热 备 节 点 (S) 一 个 有 时 间 延 迟 的 从 属 节点 ， 以 及 一 个 开启 
日 志 的 备份 服务 厂 (B) 


4.3 技巧 31: 不 要 信任 repair 恢 复 的 数据 


如 时 数据 库 浪 了 ， 且 没 有 局 用 --journal 雍 项 ,二 万 不 要 将 这 些 数 据 拿 来 就 用 。 
可 能 几 个 星期 都 平安 无 事 ， 但 罕 然 间 访 问 到 了 损坏 了 的 文档 ， 应 用 程序 就 遭 融 了 。 
另外 ， 也 可 能 由 于 索引 的 寓 乱 导致 返回 的 结果 不 完整 ， 还 可 能 导致 其 他 诸多 问题 。 
朋 认 导致 的 问题 比较 产 重 ， 而 且 可 能 谐 伏 且 通 前 很 长 一 段 时 间 都 不 能 被 发 现 。 


当然 还 是 有 些 选 择 的 。 运 行 repair (http://www.mongodb.org/di splay/Docs/ 
Durability+and+Repair#DurabilityandRepalr-Repa irCommand) 是 一 种 诱 
人 的 做 法 ， 但 却 是 个 最 不 适当 的 选择 。 首 先 ， 这 个 过 程 要 遍历 所 有 能 找到 的 文档 并 
复制 。 这 个 过 程 极其 耗 时 ， 而 且 需 要 大 量 磁盘 空间 (至少 与 现在 使 用 的 空间 相同 )， 
而 有 辣 题 的 文档 会 被 直接 忽略 掉 。 要 是 因为 月 涡 ， 数 以 万 计 的 文档 找 不 到 的 话 ， 就 
不 能 被 复制 ， 也 吏 莫 味 着 丢失 了 。 数 据 库 龙 正 常 了 ， 但 数据 却 可 能 于 很 多 。 此 外 ， 
repair 的 修复 也 是 有 限 的 ， 它 并 不 能 知晓 文档 的 细 世 ， 所 以 若 骨 证 导致 某 些 字段 
无 法 解析 ，repair 是 无 法 发 现 或 修复 的 。 


我 们 比较 推 厦 的 做 法 是 从 备份 快速 恢复 ， 或 者 从 头 开始 同步 。 注 意 ， 在 同步 数据 之 
前 一 定 要 清除 所 有 损坏 的 数据 ，MongoDB 的 复制 是 不 能 修复 这 些 损毁 数据 的 。 
4.4 技巧 32: getlasterror 


默认 情况 下 ， 写 人 是 不 返回 任何 数据 库 响 应 的 。 也 就 是 说 若 发 送 给 数据 库 更 新 、 播 
入 、 删 除 这 样 的 指令 ， 数 据 库 在 执行 完成 后 不 返回 给 用 户 任何 确认 信息 。 所 以 ， 驱 
动 也 得 不 到 指令 是 否 成 功 执行 的 响应 。 
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然而 ， 很 多 情况 下 需要 得 到 数据 库 的 啊 应 。 为 此 ，MongoDB 有 个 返回 上 一 个 指令 
执行 状态 的 命令 ， 则 做 getlasterror。 起 初 ， 它 只 是 用 来 朱 述 上 一 个 指令 的 错误 
信息 ， 但 后 来 扩展 到 了 描述 各 种 写 入 信息 并 提供 了 一 系列 与 安全 性 相关 的 选项 。 


为 了 避免 “ 读 取 最 近 写 人 ”这 种 粗心 的 错误 ( 详 见 技巧 50)，getlasterror 会 和 
写 人 请 求 捆绑 在 一 块 ， 强 制 数 据 库 将 两 者 作为 一 个 请 求 。 两 者 被 同时 发 送 并 确保 连 
续 执 行 ， 期 间 访 有 任何 别 的 操作 。 上 驱动 会 自动 处 理 这 些 ， 所 以 使 用 者 并 不 需要 特别 
留意 ， 骨 把 它 当 做 “安全 ” 写 人 好 了 。 


4.5 ”技巧 33: 开发 过 程 中 一 定 要 使 用 安全 写 入 


开发 过 程 中 ， 你 部 会 希望 应 用 程序 的 行为 与 预期 一 致 ， 这 就 离 不 开 安全 写 人 了 。 写 
人 都 会 导致 哪些 错误 昵 》 某 次 写 入 可 能 会 向 非 数 组 字段 push 数据 ， 导 致 键 重复 异常 
(试图 向 有 唯一 索引 的 字段 存放 两 个 值 相 同 的 文档 ) ， 删 除 一 个 ia 字段， 否则 会 有 
数 百 万 其 他 用 户 错 误 。 部 署 之 前 需要 知道 这 些 写 人 是 否 合理 。 


桂 尽 磁盘 至 间 也 是 不 太 容 易 被 发 现 的 错误 ， 比 如 突然 间 查 询 神秘 “于 失 ” 了 一 些 数 
据 。 如 果 疫 有 用 安全 写 人 ， 就 不 太 容易 发 现 ， 因 为 一 般 你 也 不 会 想到 检查 磁盘 。 我 经 
常 将 - -dbpath 设置 到 错误 的 分 区 ， 导 致 MongoDB 耗 尽 磁盘 的 时 间 比 预期 早 得 多 ，。 


在 开发 过 程 中 ， 有 许 许多 多 的 开发 错误 会 导致 写 人 失败 ， 这些 都 是 需要 了 解 和 处 
理 的 。 


4.6 拉 巧 34: 使 用 w 参 数 

有 些 重 要 的 操作 ， 需 要 将 写 人 数据 复制 到 复制 组 的 天 多 数 节 点 。 直 到 大 多 数 节点 都 
与 全 ， 与 人 才 算 提交 完成 。 若 是 写 人 未 能 提交 完成 ， 同 时 网 络 发 生 割 烈 或 者 服务 
器 由 于 故障 与 复制 组 的 多 数 节点 失去 联络 ， 写 人 就 会 回 深 。( 题 外 话 ， 要 是 对 回 演 
感 闪 趣 ， 大 家 可 以 参考 我 的 一 篇 博文 ， 其 中 讲述 了 如 何 操作 ， 地 址 为 http://www. 


snallinaturtleneck.com/blog/2011/01/19/how-to-use-replica-set-rollbacks/, ) 


getlasterror 到 服务 器 (通常 就 是 针对 某 一 具体 的 写 操作 设置 w)。 服 务 器 清楚 
目 己 在 oplog 中 的 位 置 (“在 123 号 操作 ”")， 然 后 等 待 w 一 1 个 节点 完成 123 号 
操作 。 每 当 有 从 属 节点 完成 指定 操作 ， 活 跃 节 点 就 将 w 计数 减 1。 一 旦 w 等 于 0， 
getlasterror 磷 返 回 成 功 。 


注 熙 ,复制 的 写 入 总 是 按照 一 定 次 序 进行 的 ， 不 同 的 节点 可 能 处 在 不 同 的 “历史 位 
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置 ， 但 数据 集 一 定 是 一 臻 的 。 它 们 会 和 活跃 书后 一 分 钟 前 ， 也 可 能 古 几 秒 钟 前 ， 或 
周 以 前 等 完全 一 样 。 但 绝 不 会 丢失 任何 操作 ，。 


也 就 是 说 ， 以 下 命令 能 够 强制 num-1i 个 节点 与 活跃 市 点 同步 ， 
> db.runcommand({"getlasterror®" : 1, "w" : num}) 


所 以 ， 开 发 者 会 问 : 如 何 设 置 w 呢 ?前 面 提 到 过 ， 要 想 绝 对 安全 就 得 大 于 节点 数 的 
一 半 。 然 而 ， 小 于 半数 也 是 可 行 的 。 


w 如 采 小 于 服务 器 数 的 一 半 ， 则 更 易于 完成 ， 可 能 已 经 够 用 了 。 若 是 这 一 小 部 分 节 
所 由 于 网 络 割 裂 或 者 服务 器 故障 与 复制 组 失去 联系 ， 则 复制 组 中 另外 过 半数 的 节点 
会 选 革 新 的 证 跃 玫 点， 并 丢失 已 经 同步 到 w 个 节点 的 操作 。 然 而 ， 只 要 有 一 个 已 经 
同步 的 于 所 与 复制 组 依然 保持 联系 ， 那 么 复制 组 中 的 其 他 节点 都 会 在 选举 新 活跃 节 
上 尽 朋 同步 这 个 写 入 操作 。 

将 w 设置 为 超过 服务 器 数目 的 一 半 ， 如 果 网 络 发 生 割 型 或 者 某 些 服务 器 停止 运行 ， 
只 有 处 理 完 写 人 的 活跃 节点 才能 被 选举 。 这 个 条 件 为 数据 安全 提供 了 有 力 保 障 ， 但 
不 太 好 达成 ， 因 为 需要 越 多 节点 同步 ， 完 成 的 可 能 性 就 越 低 。 


4.7 ”技巧 35: 一 定 要 给 w 设 置 超时 


假设 有 一 个 含 3 个 节点 的 复制 组 (一 个 活跃 节点 和 两 个 热 备 节点 )， 现 在 要 做 两 个 从 
属 方 点 与 主 布点 间 的 同步 : 

> db.runCcommand ({"getlasterror" : 1, "w" : 2}) 
但 要 是 有 个 热 备 节点 停机 了 怎么 办 ? MongoDB 不 会 检查 集群 内 热 备 节点 的 数量 ， 


它 会 等 待 w 个 从 属 节点 复制 完成 ， 可 能 是 2 个 、20 个 或 者 200 个 (要 看 具体 的 w 
了 )。 


所 以 ， 使 用 getlasterror 时 一 定 要 合理 设置 wtimeout 参数 。wtimeout 表示 从 
节点 报告 返回 并 失败 时 超时 等 待 的 毫 种 数 。 下 面 以 100 毫秒 为 例 ， 


> db.Fruncommanailn"get1aSsterroru : 1, "w" : 2, wtimeout" . 100}) 


注意 MongoDB 应 用 复制 操作 的 顺序 。 如 果 将 A、B、C 写 和 人 到 主 节点 ， 复 制 到 从 属 
太太 的 时 候 也 是 A、B、C 这 种 顺序 。 假 设 现在 的 情况 如 图 4-3 所 示 。 如 果 在 主 第 
扩 上 写 人 N， 然 后 执行 getlasterror， 从 属 节点 必须 将 EE 一 N 禾 复 制 成 功 ， 而 后 
getlasterror 才能 返回 成 功 。 所 以 ， 如 来 从 属 市 点 的 复制 慢 了 ， getlasterror 
会 使 应 用 运行 速度 变 得 很 慢 。 


ee es 
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图 4-3; 主 节点 和 从 属 节点 的 oplog。 与 活跃 节点 相 比 ， 从 属 节点 落后 了 10 个 操作 


还 有 一 性 事 儿 在 掌控 范围 内 ， 那 就 古 如 何 处 理 getlasterror 招 时 。 显然 ， 保 证 到 
另 一 服务 器 的 复制 是 因为 这 个 写 人 很 重要 。 但 要 是 写 人 本 地 没 问 题 ， 但 是 不 能 复制 
到 足够 的 备份 机 器 ， 读 怎么 办 呢 ? 


4.8 技巧 36: 不 要 每 次 写 入 都 调用 fsync 


要 是 有 重要 的 数据 需 在 日 志 中 有 记录 ， 则 写 人 时 一 定 要 使 用 fsync 选项 。fsync 
会 等 待 数 据 都 成 功 写 人 日 志 ( 至 多 100 毫秒 )， 然 后 才 会 返回 成 功 。 要 注意 的 是 ， 
fsync 并 不 是 立即 将 数据 写 入 磁盘 ， 而 是 让 应 用 程序 暂 信 直至 数据 被 写 入 人 磁盘。 所 
上 以， 车 每 次 插入 都 运行 fsync， 则 每 100 训 种 只 能 搬 人 一 次 。 这 上 比 MongoDB 普通 
择 信 不知 慢 了 多 少 倍 ， 所 以 还 是 少 用 fsync 为 妙 。 


通常 fsync 只 与 日 志 搭 配 使 用 。 除 非特 别 清楚 ， 否 则 绝 不 要 在 未 开局 日 志 时 使 用 fsync。 
不 听 忠 告 会 得 不 偿 失 ,严重 影响 应 用 性 能 的 。 


4.9 技巧 37: 朋 演 之 后 正常 局 动 


如 果 开启 了 日 志 ， 并 且 虽 然 崩溃 ， 但 系统 可 以 恢复 〈( 比 如 硬盘 没有 受 损 ， 机 器 也 没有 
进 水 )， 数 据 库 可 以 正常 重启 。 注 意 使 用 常规 选项 ， 尤 其 是 - -dabpath (以 便 找 到 日 
志文 件 ) 和 - -journal。MongoDB 会 自动 修复 数据 ， 而 后 才 开 始 接受 连接 。 数 据 比 
议 多 时 这 可 能 会 需要 几 分 钟 ， 但 比 起 repair 要 省 很 多 时 间 了 (大约 5 分钟 左 右 )。 


日 志文 件 存放 在 日 志 目录 中 ， 十 万 不 要 删除 。 


4.10 技巧 38: 持久 性 服务 器 的 瞬时 备份 

备份 开 忆 日 志 的 数据 库 有 两 种 方法 ,其 一 就 直接 对 文件 系统 做 快照 ， 其 二 就 是 用 
fsync 和 锁 配 合 ， 然 后 导出 数据 。 注 意 不 能 没有 执行 fsaync 和 上 锁 就 直接 复制 所 有 
文件 ， 因 为 文件 复制 不 能 瞬时 完成 。 硅 复制 数据 库 和 日 志 的 时 间 反 不同， 这 样 还 不 
如 不 备份 。( 一 旦 应 用 了 这 些 日 志 ， 就 有 可 能 破坏 数据 文件 。) 
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5.1 技巧 39: 手工 清理 块 集合 


GridFS 将 文件 内 容 保 存在 块 集合 中 ， 默 认 的 集合 名 是 fs.chunks。 文 件 集合 中 的 每 个 
文档 都 会 指 问 块 集合 中 的 一 个 或 多 个 文档 。 所 以 经 第 要 检查 ， 看 看 有 没有 孤 基 的 块 
(就 是 没有 和 文件 关联 的 块 )。 若 数据 库 在 保存 文件 的 过 程 中 异常 关机 ( 块 写 人 后 才 
会 写 fs.files 文档 )， 就 可 能 出 现 这 种 情况 。 


检查 块 集合 要 更 择 流量 较 小 的 时 段 (因为 会 往 内 存 中 调 入 大 量 数据 ) ， 步 骤 如 下 : 


> Var cursor = db.fs.chunks.findl(t{}., {" id" : 1, "files id" : 11); 

> Wwhile (cursor.hasNext ()}) 1 

,Var Chunk = CUursor.next(): 

... if (db.fs.files.findone({_id : chunk.files iadl) == null) { 
Print ("orphaned chunk: " + chunk. ia) ; 


这 样 栈 能 将 所 有 扳 悬 块 的 _ia 列 出 来 。 


在 刷 除 所 有 这 些 孤 悬 的 块 之 前 ， 要 确保 其 不 是 正 被 写 入 文件 的 组 成 部 分 你 应 当 用 
cp .CUIIenEOP (| 指令 取 背 当前 操作 ’ 之 后 看 看 fs.files 集合 查 看 最 下 的 uploadDate 
(上 传 日 期 ) 。 


5.2 ” 近 了 巧 40: 用 repair 压 缩 数 据 库 


技巧 31 中 讲 到 了 通常 不 建议 用 repair 去 恢复 数据 (除非 迫不得已 ) 的 原因 。 不 过 
repair 用 来 压缩 数据 倒是 正 合适 。” 





但 愿 这 个 技巧 早 些 过 时 ， 希 望 一 旦 在 线 压缩 的 bug 得 到 修正 就 不 需要 这 个 
技巧 了 。 (参见 http:Wiira.mongodb.org/browse/SERVER-2120。) 





repailr 基本 上 就 是 mongodump 加 mongorestore, 进 过 这 一 过 程 将 数据 都 整理 出 
来 ， 形 成 整洁 的 数据 副本 ， 移 除 文件 的 所 有 数据 碎片 。( 当 有 大 量 删 除 或 者 更 新 而 导 
臻 数据 移动 ， 集 合 中 就 会 出 现 很 多 空洞 .) repair 会 以 压缩 形式 重新 插 人 数据 。 


使 用 repair 还 有 些 注意 事项 。 


” 这 样 会 阻塞 操作 ， 所 以 不 要 在 活跃 节点 上 执行 。 一 般 先 在 热 备 节点 上 执行 ， 然 后 让 
活跃 节点 和 热 备 节点 交换 角色 ， 再 在 原来 的 活跃 节点 (现在 是 热 备 节点 ) 上 执行 这 
个 操作 。 





译注 1，2.0 系 统 在 这 方面 有 改进 。 
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。 需要 使 用 是 原来 数据 库 两 倍 的 磁盘 空间 。( 比 方 说 ， 若 有 200 GB 的 数据 ， 则 还 要 
至 少 200 GB 的 空闲 磁盘 空间 才能 运行 repair,。) 


很 多 人 都 会 过 到 的 一 个 同 题 就 是 要 通过 repair 处 理 的 数据 量 太 大 ， 比 如 数据 库 可 
能 有 500 GB ， 整 个 服务 器 的 硬盘 也 就 700 GB。 这 种 情况 下 ， 就 只 能 用 mongodump 
和 mongorestore 来 进行 “手工 ”恢复 了 。 


例如 ， 假 设 ny 了 主机 上 大 部 分 磁盘 空间 都 被 占用 了 。 数 据 库 有 300 GB ， 而 其 所 在 服 
务 器 上 总 的 磁盘 空间 也 就 400 GB。 但 是 我 们 还 有 my2， 它 也 有 同样 的 400 GB 硬盘 ， 
但 什么 数据 也 没有 。 首 先 ， 如 果 nyl 是 主 节 点 ， 则 需要 令 其 降级 ， 然 后 执行 fsync 
并 加 锁 ， 这 样 能 确保 磁盘 上 其 数据 的 一 致 性 。 





> rsS.stepDown ( ) 
> db.runcommand{{fsync : 1, lock : 1}) 


然后 登 邓 到 ny2 上 并 执行 : 
ny2$ mongodump --host nyl 
这 就 会 将 数据 导出 到 ny2 上 的 dump 目录 下 。 


上 和 面 mongodump 的 执行 速度 很 可 能 会 受到 网 络 速度 的 限制 。 如 果 可 以 在 物理 上 访 
问 机 器 的 话 ， 加 一 块 硬盘 ， 做 本 地 的 mongodump。 

吐出 成 功 后 就 可 以 在 ny 上 惰 复 数据 了 ， 如 下 。 

1. 停止 ny7 上 的 mongod 进程 。 

2. 备份 nyT 上 的 数据 文件 (比如 做 EBS 快照 )， 以 防 万 一 。 

3. 删 队 ny7 上 的 数据 文件 。 

4. 重 局 ny1 (现在 没有 数据 )。 如 果 其 在 某 个 复制 组 中 ， 启 动 时 要 指定 一 个 不 同 的 端 
口 并 且 去 掉 -- replset 参数 ， 为 的 是 不 (与 其 他 复制 组 中 的 节点 ) 混淆 。 

最 后 ， 在 ny2 上 执行 mongorestore: 


ny25 mongorestore --host nyl --port 10000 # specify port if it's not 27017 


这 样 ny] 就 有 压缩 形式 的 数据 库 文件 了 ， 之 后 就 可 以 正常 启动 了 。 


5.3 拉 巧 41: 不 要 改变 复制 组 成 员 投票 的 权 值 


婴 走 布 户 菜 个 机 融 优 先 成 为 活跃 点 ， 需 要 设 秆 权 值 。1.9.0 中 可 以 为 某 个 节点 设置 
相对 较 高 的 权 值 ， 这 样 此 节点 总 会 优先 成 为 活跃 节点 。 但 是 在 1.9.0 以 前 的 版 本 中 ， 
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ee i 
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这 个 权 值 只 能 为 1 (可 以 成 为 活跃 市 点 ) 或 者 0 (不 能 成 为 活跃 市 态 )。 在 1.9.0 之 
前 的 版 本 中 ， 唯 一 能 让 某 个 布 反 总 成 为 活跃 习 后 的 方法 就 是 将 其 他 市 点 的 权 值 都 设 
为 0。 

人 们 总 是 将 服务 如 依 据 权 值 成 为 活跃 万 上 所 这 一 件 事 与 社会 中 的 投票 选举 等 同 起 来 ， 
认为 可 以 通过 增加 某 个 市 点 的 权 值 来 让 其 专 得 选举 。 但 是 ， 服 务 嚣 一 点 也 不 “ 自 
私 ， 未 必 会 投 目 己 的 标 。 复 制 组 中 的 节点 都 是 “公正 无 私 ” 的 ， 对 自己 和 友和 邻 都 是 
完全 同等 对 待 的 。 


5.4 拉 巧 42: 无 活跃 节点 时 可 重 置 复制 组 
如 果 复 制 组 中 只 有 少数 节点 在 运行 ， 系 统 就 会 忽略 本 地 数据 库 ， 然 后 重新 配置 复制 
组 。 对 于 大 多 数 情形 而 言 ， 这 样 做 没什么 问题 ， 但 是 这 样 会 有 一 些 停 机 时 间 ， 因 为 
坚 重 建 复 制 组 和 重新 分 配 oplog。 如 果 粗 让 应 用 保持 运行 (但 因为 没有 活跃 节点 ， 
所 以 它 只 能 是 只 读 的 ) ， 可 以 ， 但 前 提 是 得 有 多 于 一 个 从 属 节点 仍 在 工作 。 
选 一 个 从 属 节 点 ， 将 其 关 停 ， 然 后 去 掉 - -replset 选项 并 用 另外 一 个 端口 启动 。 
例如 ， 老 原本 是 这 样 启 动 的 ; 

+ mongod --replSet foeo --port 5555 
可 以 这 样 重 局 : 

$$ mongod --port 5S5S56 
这 样 复制 组 中 的 其 他 节点 就 不 会 将 其 作为 这 一 复制 组 的 一 员 了 (因为 端口 不 同 了 )， 
它 本 身 也 将 不 会 使 用 复制 组 的 配置 (因为 根本 就 没 告诉 它 说 它 曾 是 复制 组 的 一 员 )， 
此 计 ， 它 吏 仅 仅 是 个 普通 的 mongod 服务 器 。 
接 下 来 要 更 改 复制 组 的 配置 信息 ， 因 此 要 通过 shell 连接 这 个 服务 器 。 切 找到 本 地 
(local) 数据 库 ， 将 复制 组 的 配置 信息 存 到 一 个 JavaScript 变量 中 。 例 如 ， 假 记 复制 
组 中 有 4 个 节点， 看 上 去 可 能 如 下 ， 


> USe local 
> Config = db.syatem.replset .findonel) 


nm 4 : "foo", 
versiorn" ; 2, 
"members"” : [ 


™ ? 
host" : "rsl:SSSS5" 


管理 技巧 | 113 


Linux 公 社 www.linuxidc.com 


il 1 . 1 


host"™ : "rs2:5555", 

narbiterOnly" : true 

a" 2 ， 

"hogst" nres3:5555" 
] ， 
| 

id" 3 ， 

nhogst" nr 和 dd:5555" 
} 


] 
| 
要 更 改 配置 就 要 将 config 对 象 改 成 我 们 期 望 的 配置 并 且 将 其 标记 为 “最 新 的 ， 这 
样 集 群 就 能 自动 更 新 。 


上 面 的 配置 是 针对 4 个 节点 的 集群 的 ， 但 现在 假设 要 将 其 改 成 只 有 3 个 节点 ， 包 括 
rs1] 、rs2 和 rs4。 为 此 要 把 rs3 从 数组 中 删除 ， 用 JavaScript 的 slice 国 数 就 能 完成 : 


> Config.slice(l2, 1)} 
> configtf 
4 id"” ; "foo", 
Yerslon" ; 2, 
"members" : [ 


" an : 0O, 
"host" : "rsili:S555" 


i i" = 1 
host™"™ : "rgs2:56555"., 
rarbiteroOnly" : true 


ii -am 3 ， 
"host" : "rs4:5555" 


} 


一 定 不 要 把 rs4 的 iad 改 为 2。 这 样 会 造成 混乱 。 如 果 想 向 集群 中 添加 节点 ， 建 议 
用 JavaScript 的 push 函数 添加 ia 为 4、5 之 类 的 条 目 。 要 是 想 既 添加 又 删除 市 
凡 ， 可 能 有 所 乱 ， 上 用 Javascrlpt 函数 splice 就 好 了 (也 可 以 用 push 和 slice)。 


然后 增加 版 本 号 (config.version), 以 此 来 通知 其 他 市 把 配置 有 更 新 , 需要 同步 。 
现在 要 再 次 确认 配置 文档 。 若 把 这 配置 搞 坏 了 ， 可 能 会 把 整个 复制 集 的 配置 彻底 搞 
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坏 。 说 的 明白 点 ， 数 据 没 什么 危险 ， 但 可 能 得 将 所 有 上 服 务 兽 部 艾 把， 并 删除 每 个 服 
务 器 上 的 本 地 数据 库 。 所 以 要 确保 这 个 配置 指 问 了 正确 的 服务 背 ， 所 有 的 id 和 邵 疫 
有 变 ， 也 没有 把 仲裁 者 和 普通 的 区 点 搞 混 。 


当 确信 配置 完全 符合 预期 时 ， 就 可 以 停 掉 服 务 器 了 。 然 后 用 正常 参数 重新 启动 就 好 
了 (--replSet 和 标准 的 端口 )。 几 秒 钟 后 ， 其 他 节点 就 会 对 其 发 起 连接 ， 更 新 自己 的 
配置 ， 然 后 选 出 新 的 活跃 节点 。 


延伸 阅读 : 


， slice 国 数 (参见 http://www.w3schools.conyjsref/jsref-slice-array.asp) ; 

， push 国 数 (参见 http://www.w3schools.com/ijsref/isref-push.asp) ; 

* 复制 组 选项 (参见 http://www.mongodb.org/display/DOCS/Replica+Sett+Configuration 
#ReplicasetCOnfiquxatton-TheReplicaSetConfgObject)。 


5.5 技巧 43: 不 必 指定 - -shardsvr 和 
- -configsvr 参 数 


依据 文档 来 看 ， 似 平 配置 分 片 必须 设置 这 些 参数 ， 但 事实 并 非 如 此 。 这 些 参数 大 体 
上 只 契 改 变 端 口 而 已 (这 个 端口 会 严重 扰乱 已 有 的 复制 组 )，- -shardsvr 将 端口 改 
为 27018，--configsvr 将 端口 改 为 27019。 如 及 人 在 多 台 机 器 上 设置 多 个 服务 器 ， 
这 样 能 降低 互联 的 难度 ， 使 所 有 mongo 进程 都 运行 在 27017 上 ， 使 所 有 分 片 都 运行 
任 27018 上 ， 使 所 有 配置 服务 器 都 用 27019。 从 零 开 始 创建 集群 时 ， 这 样 设置 可 以 
锯 大 地 帮助 了 解 各 种 情况 ， 但 将 已 有 的 复制 组 切换 到 分 片 也 没 必 要 太 过 担心 。 


-~-configsvr 不 仅 更 改 默认 端口 ， 还 会 开启 diaglog， 它 用 来 以 可 重 放 的 形式 记录 
配置 数据 库 的 所 有 操作 ， 以 防 不 测 。 如 果 用 的 版 本 是 1.6， 则 应 用 --port 27019 和 
-~-diaglog 两 小 参数 来 达到 同样 的 目的 ， 因 为 只 有 1.6.5 以 上 版 本 的 - -Configsvr 
选项 才 会 开局 aiaglog。 要 是 使 用 版 本 1.8， 要 用 - -pert 27019 和 - -journal 
(而 不 是 --diaglog)。 日 志和 diaglog 效果 差不多 ， 但 性 能 好 很 多 。 


5.6 ”技巧 44: 开发 时 才 用 --notablescan 

MongoDB 有 个 - -notablescan 选项 ， 一 旦 开启 ， 就 会 在 某 个 查询 要 做 表 扫 描 时 返 
加 第 才 《处理 使 用 索引 的 查询 时 一 切 正常 )。 开 发 时 想 确保 所 有 查询 都 用 到 索引 时 ， 
这 个 选项 网 非常 有 用 了 ， 但 不 建议 在 生产 环境 中 使 用 。 问 题 是 很 多 简单 的 管理 任务 
部 需要 表 扫 描 。 如 果 已 经 带 着 =- -notablescan 参数 开启 了 MongoDB ， 还 想 看 看 数 
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据 库 中 集合 的 清单 ， 很 遗憾 ， 需 要 做 表 扫 描 。 想 要 做 些 管理 更 新 ， 其 中 需要 用 到 没 
有 索引 的 字段 ? 这 可 不 行 ， 不 允许 表 扫 摘 。 


- -notablescan 是 调试 的 好 工具 ， 但 只 用 索引 查询 通常 极为 不 切实 际 。 


5.7 技巧 45: 学 习 JavaScript 


即便 你 用 的 语言 有 很 好 的 shell (比如 Python)， 或 者 有 很 好 的 抽象 层 把 应 用 和 
MongoDB 隔离 开 (比如 Mongoid)， 也 应 该 熟悉 JavaScript shell。 这 种 信息 存 取 方 
式 最 快捷 ， 且 Java Script 是 所 有 MongoDB 开发 者 通用 的 语言 。 


要 尽 可 能 充分 地 利用 shel， 了 解 一 些 Java Script 知识 是 很 有 帮助 的 。 下 面 的 这 些 技 
巧 涉 及 这 种 语言 非常 有 用 的 一 些 特 性 ， 但 还 远 不 能 满足 你 的 使 用 需求 。 因 特 网 上 有 很 
多 免费 资源 ， 如 果 偏 爱 读 书 (一 定 是 吧 ， 因 为 你 正 读 着 呢 )， 可 以 看 看 《JavaScript 语 
言 精粹 》， 相 比 《Javascript 权威 指南 》 而 言 ， 前 者 很 薄 ， 更 易 理 解 (后 者 也 很 棒 ， 但 
是 要 多 出 700 页 )。 这 里 不 能 全 面 介绍 JavaScript 的 有 用 特性 ， 但 这 门 语言 真 的 非常 
灵活 且 功 能 强大 。 


默认 情况 下 ，mongo 会 连接 Iocalhost:27017。 启 动 时 可 以 任意 指定 要 连接 的 服务 器 ， 
方法 是 运行 mongo 主机 :端口 1 数据库。 在 shell 下 还 可 以 连接 多 个 服务 问 或 者 状 
据 库 。 

例如 ， 假 设 应 用 需要 两 个 数据 库 ， 一 个 customers 数据 库 ， 一 个 game 数据 库 。 同 
时 使 用 两 者 且 需 要 在 两 者 之 卓 切 换 时 可 以 用 use customers、use game，、use 
customers 等 。 也 可 以 用 不 同 的 变量 表示 不 同 的 数据 库 ; 









> db 

test 

> Customers = db.getSsisterDB li"customers") 
CUStOmMers 

> game = dh.getSsisterDB ("game") 

ame 


这 些 变量 和 db 的 用 法 一 样 ， 如 game .players.find()、customers .europe. 
update () 等 。 


也 可 以 将 db 或 者 别 的 变量 指向 其 他 服务 器 : 


> db = connect ("nyla:27017/foo") 
connecting to: nyla:27017/foo 
foo 
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> db 

foo 
车 运行 复制 组 或 者 分 片 集群 时 需要 连接 多 个 布点 ， 这 样 的 技巧 就 很 方便 了 。 在 shell 
中 可 以 同时 维护 到 主 布点 和 从 属 刷 点 的 连接 : 


> master = connect ("nyla:27017/admin”™) 
connecting to nyla:27017/admin 

己 马 仙 工 内 

> Slave = connect ("nylb:27017/admin") 
connecting to: nylb:27017/admin 

admin 


你 还 能 耳 搂 连接 分 厂 服 务 颖 、 配 和 置 服务 器 ， 只 要 是 运行 的 MongoDB 服务 器 就 可 以 。 


一 些 shell 国 数 ， 尤 其 是 rs 辅助 国 数 ， 是 以 ab 作为 当前 数据 库 的 ， 如 果 
db 连接 的 是 从 属 市 点 或 者 仲裁 机 ， 有 些 辅助 函数 就 失效 了 。 





利用 shell 连 毛 多 个 服务 器 有 个 令 人 讨厌 的 地 方 ， 即 MongoDB 会 跟踪 发 起 的 所 有 连 
接 ， 一 且 连 接 丢 失 ， 就 不 停 地 报警 ， 直 到 连接 恢复 或 者 重启 shell。 即 便 是 清除 连接 
也 无 效 ! 这 个 错误 会 在 版 本 1.9 中 得 以 修正 ， 不 过 现在 虽然 有 点 恼人 却 也 无 鞠 紧 要 


5.9 技巧 47: 获得 帮助 

Java Script 使 得 我 们 可 以 在 shell 中 看 到 绝 大 部 分 国 数 的 源 代 码 。 要 相知 道 国 数 接受 
什么 参数 或 者 记 不 住 返回 值 ， 你 就 可 以 通过 执行 函数 名 但 不 加 括号 来 查看 源 代 码 。 
例如 ， 假 设 我 们 记得 ab .addUser 用 来 添加 一 个 用 户 ， 但 拿 不 准 参 数 是 什么 了 : 





> db.addUser 
tunction ‘username, pass, readonily) I 


readonly = readonly || false; 

var cc = this,.getCollection{({"system.users'"). 

var u = c.findone (luser: username}) || {user: username!}:; 
u.readonly = readonly:; 

U.Pwd = hex md5 (username + {":mongo:" + pass}}. 


print{itojson({(u)}.; 
C. Savelu).: 


} 
我 们 立刻 就 能 知道 ， 应 该 传 一 个 username (用 户 名 )、pass (密码 )， 还 有 个 只 读 
的 参数 read only (创建 给 定数 据 库 的 只 读 用 户 )。 


为 外 ， 大 家 也 可 以 在 线 查 看 JavaScript API (http: //api.mongodb.org/is)。 在 线 文 档 
虽然 写 得 不 是 很 好 ， 但 还 算 比 较 完整 的 函数 参考 ， 
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还 有 很 多 内 置 的 命令 帮助 。 要 是 想 不 起 来 要 执行 的 命令 也 设 关 系 ， 只 需 志 住 一 个 佣 





人 l1istCommands。 它 会 将 所 有 命令 的 名 称 都 列 出 来 。 
> db.runcommand({listCommands : 11) 
| 
rcommands" : { 
" isself"* : { ... J, 
} 
出 DE il 1 


l 
如 果 知 道 命令 名 ， 陈 可 以 通过 {commandName : 1，help : 1} (即便 1 对 于 这 个 
命令 本 身 没 有 意义 也 没关系 ) 来 查看 内 置 文档 。 这 种 方式 可 以 显示 各 个 命令 在 数据 
据 库 中 的 基本 文档 ， 有 些 很 有 用 ， 有 的 写 得 不 怎么 样 。 


> db.runCommand({(collstats : 1, help : 11}) 


{ 


"nelp" : "help for: collstats 1 collstats: "blog.posts" , scale : 1 } 
scale divides sizes e.g. for KB use 1024", 

"lockType" ; -1 

ok" : 1 


} 
shell 还 有 tab 补 全 蕊 能， 因此 你 可 以 获得 国 数 名 、 字 段 ， 其 至 是 现 有 集合 名 的 输入 
提示 信息 : 


> db.c 
db.cloneCollection db .constructor db .currentop i 
db.cloneDatabase I db.copyDatabase | db .currentoOp { 


db .commandHelp! db.createcCcollection! 
> db.copyDatabase (} . 


编写 本 书 时 ， 只 有 *NIX 系统 上 实现 了 shell 补 全 。 


5.10 技巧 48: 创建 启动 文件 


shell 局 动 时 可 以 运行 启动 文件 。 启 动 文件 通常 含有 一 组 用 户 自 定义 的 辅助 函数 ， 但 
也 无 非 就 是 个 普通 的 JavaScript 程序 。 要 构建 启动 文件 ， 建 一 个 以 .js 为 后 绿 的 文件 
(比方 说 startup.js ) 隐 可 以 卫 ， 人 然后 用 mongo startup.j]s 局 动 。 
比如 ， 假 如 要 做 些 shell 维护 工作 ， 要 避免 意外 删除 数据 库 或 者 记录 。 你 就 可 以 在 
shell 中 删除 一 些 不 太 安全 的 命令 (比如 删除 数据 库 、 集 合 、 文 档 等 ) : 

ff no-delete.js 

delete DBCollection.prototype.drop, 


delete DBEBCollection.prototype.remove,; 
delete DB.prototype .dropDatabase; 


这 样 ， 删 除 集合 时 ，momgo 无 法 识别 这 一 函数 ， 
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$$ monNgo no-delete,.js 

MoONngoDB shell wvergion: 1.8.0 

connecting to: test 

> db.foo.dropt) 

Wed Feb 16 la4:;:24:16 TypeError: db.foo.drop is not a function (shell}:1 


但 这 种 招数 “ 防 君 子 不 防 小 人 ”， 对 于 那些 下 定 决 心 删除 集合 的 人 一 点 儿 作 用 都 没 
有 。 所 以 删除 函数 并 不 能 作为 防范 恶意 攻击 的 手段 (本 身 也 不 提供 这 一 作用 )， 它 仅 
仅 用 于 避免 些 误 操作 而 已 。 


要 是 有 人 真 的 铁 了 心 想 删 除 集 台 ， 但 找 不 到 drop () ， 只 要 执行 db .sema. 
findone( {drop : "foo"}) 就 可 以 了 。 要 是 连 这 个 都 不 让 做 就 只 能 把 
find({) 也 删 掉 ， 但 shell 也 就 没什么 用 处 了 。 

你 可 以 建立 一 个 详尽 的 国 数 墨 名 单 ， 这 需要 考虑 实际 情况 (是 要 禁止 创建 素 引 ， 还 
是 禁止 执行 数据 库 命 令 等 )。mongo 启动 时 可 以 指定 多 个 启动 文件 ， 所 以 可 以 实现 模 
块 化 操作 。 


5.11 技巧 49: 自 定义 函数 


如 果 你 想 创建 自 定义 函数 ， 可 以 把 它们 定义 为 全 局 函数 ， 或 者 添加 到 类 的 实例 ， 或 
类 本 身 中 (这 样 类 的 每 个 实例 都 会 包含 这 个 函数 的 一 个 实例 )。 

例如 ,假设 像 技巧 46 那样 连接 复制 组 中 的 所 有 节点 ， 需 要 添加 一 个 getoplogLength 
国 数 。 

经 过 一 番 和 考虑， 我们 决定 将 其 添加 到 数据 库 类 (DB) 中 


DB .prototype.getoplogLength = function() { 
var local = this.getSisterDB ("local"). 





var first = local .oplog.rs.find{) .sort ({$natural : 11) .limit (1) .next():; 
Var last = local.oplog.rs.find() .sort{({$natural : -1}) .1imit {1}) .next(); 
print ("total time: " + [llast.ts.t - first.ts.t) + " gecg"); 


}， 
然后 ， 连接 rsA. rsB #0 rsC 这 些 数 据 库 时 就 都 会 有 getOplogLength 国 数 。 


要 年 事先 已 经 在 使 用 rs4、rsB 和 rsC， 则 即使 你 添加 了 新 函数 到 (它们 用 来 进 实例 化 的 ) 
类 中 它们 也 不 能 用 。(JavaScript 中 的 类 相当 于 类 实例 的 模板 ， 一 旦 初始 化 完成 ， 实 例 
和 类 陨 没 有 关系 了 )。 如 果 连 接 已 经 初始 化 了 ， 就 得 为 每 个 实例 逐个 添加 这 一 方法 ， 

// 将 函数 存 人 一 个 变量 以 保存 输 人 

var £f = function() { ... | 

rshA.getoOplogSize = f£.; 


rasB.getOplogSize = f£; 
rsC.getoplogSsize = £; 


| 一 Se 
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你 也 可 以 稍 作 修 改 ， 将 其 作为 全 局 图 数 : 


getoplogLength = function(db}) | 
var local = db.getsisterDB ("local"), 


I 
当然 也 可 以 在 对 象 ( 以 及 对 象 的 方法 ) 上 做 类 似 操 作 。 


从 文件 加 载 JavaScript 

在 shell 中 可 以 随时 用 1oad() 国 数 加 载 JavaScript 库 。1oad() 加 载 JavaScript 文 
件 并 在 shell 上 下 文中 执行 (因此 shell 中 所 有 的 全 局 变量 对 其 可 见 }。 你 也 可 以 在 加 
载 的 文件 中 定义 要 在 shell 中 全 局 使 用 的 变量 。 你 也 可 以 在 这 些 文件 中 用 print 国 
数 将 输出 呈现 在 shell 中 : 


:/ hello.js 
print ("Hello, world!") 


然后 在 shell 中 执行 : 


> loadt"hello.je") 

Hello, worldl! 
操作 人 员 通 常 想 要 用 配置 文件 设置 复制 组 或 者 分 片 。 这 个 复制 组 和 分 片 的 设置 过 程 
必须 通过 编程 完成 ， 但 你 可 以 把 设置 函数 写 入 JavaScript 文件 ， 然 后 执行 它 就 可 以 
建立 复制 组 。 这 和 使 用 配置 文件 也 差不多 了 。 


5.12 技巧 50: 使 用 单个 连接 读 取 自 身 写 入 
MongoDB 服务 如 的 连接 就 像 一 个 请 求 队 列 。 比 方 说 ， 若 通过 这 个 连接 向 数据 库 依 
次 发 送 请 求 A、B、C， 则 MongoDB 会 按照 A、B、C 的 发 送 顺 序 处 理 。 但 并 不 保 
证 每 个 操作 都 能 成 功 执行 ， 可 能 A 就 关 停 了 服务 器 (为 shutdownServer 命令 )， 
然后 B 和 C 都 会 返回 错误 (要 求 返 回执 行 结果 的 情况 下 )。 但 是 ， 其 发 送 和 执行 的 
顺序 症 绝对 能 得 到 保证 的 《〈 见 图 5-1)。 


ce 
5 i 






OC Fe 
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这 是 很 有 用 的 。 例 如 假设 增加 了 某 个 产品 的 下 载 次 数 ， 然 后 用 findone 查询 ， 你 会 
项 望 得 到 赠 加 后 的 下 载 次 数 。 但 是 ， 要 征用 的 是 多 个 连 搂 《多 数 碟 动 都 会 目 动 使 用 
连接 池 )， 可 能 就 会 事与愿违 。 


假设 有 两 个 到 数据 库 的 连接 (同一 个 客户 端 发 起 的 )。 每 个 连接 的 请 求 都 能 按 顺 序 
处 理 ， 但 两 个 连接 之 间 就 没有 什么 确定 的 先后 顺序 了 。 如 果 第 一 个 连接 发 送 了 A. 
B、C 这 3 个 请 求 ， 第 二 个 连接 发 送 了 D、E、F 这 3 个 请 求 ， 最 后 处 理 顺 序 可 能 是 
A、D、B、E、C、EFE， 也 可 能 是 A、B、C、D、E、F， 也 可 能 是 两 个 序列 的 其 他 组 
合 〈 见 图 5-2) 


如 术 A 请 求 是 插 人 新 文档 ，D 请 求 是 查询 这 个 文档 ，D 最 后 可 能 跑 在 前 面 了 (上 比如 
D、A、E、B、FE、C 这 样 的 顺 夺 )， 这 样 就 找 不 到 记录 了 。 为 了 修正 这 一 点 ， 有 连 
接地 的 驱动 一 般 都 会 提供 一 个 方法 ， 让 一 组 请 求 通过 同一 个 连接 发 送 ， 来 避免 这 种 
读 取 日 己 的 写 人 ”的 矛盾 。 其 他 的 驱动 会 自动 这 样 处 理 (通常 每 个 “会 话 ” 使 用 同 
一 个 连接 )， 详 见 驱动 文档 ， 





Es 
全 本 了 pit 
中 a 2 i 
= er . es 
| .Ss . i 1 


5-<: 请 求 在 同一 个 连接 内 能 保证 处 理 顺序 ， 但 


定 企 不 同 的 连接 中 就 无 法 保证 了 
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3 . 3 技巧 2 3 : 不 要 到 处 使 用 索引 
3 . 4 反 巧 24: 未 引 覆 孟 查 询 
3 . 5 ”技巧 2 5 : 使 用 复合 索引 加 快 多 个 查询 
3 . 6 技巧 2 6 : 通过 建立 分 级 文档 加 速 扫描 
3 .7 技巧 2 7 : A ND 型 查询 要 点 
3 .8 技巧 2 8 : OR 型 查询 要 上 
第 4 章 ”数据 安全 性 和 一 致 性 
4 . 1 技巧 2 9 : 单机 做 日 志 ， 多 机 则 复制 
4. 2 拉 巧 30 : 坚持 使 用 复制 或 日 志 ， 或 两 者 兼用 
4. 3 技巧 3 1 : 不 要 信任 r epair 恢复 的 数据 
4. 4 拉 巧 32 :getliasterror 
4. 5 拉 巧 33 : 开发 过 程 中 一 定 要 使 用 安全 写 入 
4 . 6 技巧 3 4 : 使 用 WwW 参数 
4 . 7 ”技巧 3 5 : 一 定 要 给 w 设置 超时 
4 . 8 技巧 3 6 : 不 要 每 次 与 入 都 调用 sync 


Linux 公 社 www.linuxidc.com 


大大 


种- 


二 二 
= 


4 . 2 技巧 3 7 : 朋 演 之 后 正常 局 动 

4. 10 技巧 3 8 : 持久 性 服务 器 的 瞬时 备份 

管理 技巧 

3 . 1 技巧 3 9 : 手工 清理 块 集合 

3.2 拉 巧 40 : 用 e p qi r 压缩 数据 库 

3 . 3 技巧 4 1 : 不 要 改变 复制 组 成 员 投 票 的 权 值 

3 . 4 技巧 4 2 : 无 活跃 六 点 时 可 重 置 复制 组 

5. 5 技巧 4 3 : 不 必 指 定 - - SsS haqr dsvr 和- - ConfigsyYvr 参数 
5 . 6 技巧 4 4 : 开发 时 才 用 - - not abl es can 
5.7 技巧 45 :学习 Java9cr ii pt 

3. 8 拉 巧 46: 在 hel1l 中 管理 所 有 服务 器 和 数据 库 
3 . 9 ”技巧 4 7 : 获得 帮助 

9. 10 拉 巧 48 : 创建 局 动 文件 

93. 11 技巧 49 : 目 定 义 函数 

3 . 12 技巧 5 0 : 使 用 单个 连接 谈 取 上 自身 与 入 
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欢迎 点 击 这 里 的 链接 进入 精彩 的 Linux 公 社 网 站 


Linux 公 社 (www.Linuxidc.com) 于 2006 年 9 月 2$ 日 注册 并 开通 网 站 ，Linux 现 在 已 经 成 为 一 种 广 受 关注 和 文 持 
的 一 种 操作 系统 ，IDC 是 互联 网 数据 中 心 ，LinuxIDC 就 是 关于 Linux 的 数据 中 心 。 


Linux 公 社 是 专业 的 Linux 系 统 | 门户 网 站 ， 实 时 发 布 最 新 Linux 资 讳 ， 包 括 Linux、Ubuntu、Fedora、RedHat、 红 


旗 Linux、Linux 教 程 、Linux 认 证 、SUSE Linux、Android、Oracle、Hadoop、CentOS、MySQL、Apache、 
Nginx、Tomcat、Python、Java、C 语 言 、OpenStack、 集 群 等 技术 。 


Linux 公 社 (LinuxIDC.com) 设置 了 有 一 定 影 啊 力 的 Linux 专 题 栏 目 。 
Linux 公 社 主 站 网 址 : WWWw.linuxidc.com 旗下 网 站 : Www.linuxidc.net 


包括 : Ubuntu 专题 Fedora 专题 Android 专题 Oracle 专题 Hadoop 专题 RedHat 专题 SUSE 专题 
红旗 Linux 专题 CentOS 专题 


有 TI ULX 公 社 


www.Linuxidc.com 
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